Konverter personer og objekter til 3D med Metas SAM 3 og SAM 3D

Siste oppdatering: 21/11/2025

  • SAM 3-segmenter med detaljerte tekstmeldinger og integrerer syn og språk for større nøyaktighet.
  • SAM 3D rekonstruerer 3D-objekter og -kropper fra et enkelt bilde ved hjelp av åpne ressurser.
  • Med Playground kan du teste segmentering og 3D uten teknisk kunnskap eller installasjon.
  • Bruksområder innen redigering, markedsplass og områder som utdanning, vitenskap og sport.

Slik konverterer du personer og objekter til 3D-modeller med SAM 3D

¿Hvordan konvertere personer og objekter til 3D-modeller med SAM 3D? Kunstig intelligens brukt på visuelle elementer har stor innvirkning, og nå, i tillegg til å kutte ut objekter presist, er det mulig konvertere et enkelt bilde til en 3D-modell Klar til å utforske fra flere vinkler. Meta har introdusert en ny generasjon verktøy som bygger bro mellom redigering, visuell verdensforståelse og tredimensjonal rekonstruksjon uten å kreve avansert utstyr eller kunnskap.

Vi snakker om SAM 3 og SAM 3D, to modeller som kommer for å forbedre deteksjon, sporing og segmentering, og for å bringe 3D-rekonstruksjon av objekter og mennesker til et bredt publikum. Forslaget deres innebærer å forstå tekstinstruksjoner og visuelle signaler samtidig, slik at det å klippe, transformere og rekonstruere elementer er like enkelt som å skrive det vi vil eller å gjøre noen få klikk.

Hva er SAM 3 og SAM 3D, og ​​hvordan er de forskjellige?

FDM vs. resin 3D-printing

Metas Segment Anything-familie utvides med to nye tilskudd: SAM 3 og SAM 3D. Førstnevnte fokuserer på å identifisere, spore og segmentere objekter i bilder og videoer med neste generasjons nøyaktighet, mens sistnevnte Rekonstruerer 3D-geometri og utseende fra et enkelt bildeinkludert mennesker, dyr eller hverdagsprodukter.

Den funksjonelle forskjellen er tydelig: SAM 3 håndterer «forståelse og separering» av visuelt innhold, og SAM 3D bruker denne forståelsen til å «lage» et tredimensjonalt volum. Med denne sammenkoblingen blir en arbeidsflyt som tidligere krevde kompleks programvare eller spesialiserte skannere mye mer tilgjengelig og raskere.

SAM 3 er dessuten ikke begrenset til grunnleggende visuelle instruksjoner. Den tilbyr segmentering veiledet av naturlig språk som er i stand til å tolke svært presise beskrivelserVi snakker ikke lenger bare om «bil» eller «ball», men om uttrykk som «rød baseballcaps» for å finne frem til nettopp disse elementene i en scene, selv gjennom hele en video.

I mellomtiden kommer SAM 3D i to komplementære varianter: SAM 3D Objects, fokusert på objekter og scenerog SAM 3D Body, trent til å estimere menneskelig form og kropp. Denne spesialiseringen gjør at den kan dekke alt fra forbruksvarer til portretter og poseringer, noe som åpner døren for kreative, kommersielle og vitenskapelige anvendelser.

Hvordan klarer de å segmentere og rekonstruere fra ett enkelt bilde?

Nøkkelen ligger i en arkitektur som er trent på store datamengder for å etablere direkte koblinger mellom ord og piksler. Modellen forstår skriftlige instruksjoner og visuelle signaler (klikk, prikker eller bokser) samtidig, slik at oversette en forespørsel til bestemte områder av et bilde eller en videoramme.

Denne forståelsen av språket går utover tradisjonelle klassenavn. SAM 3 kan håndtere komplekse instruksjoner, utelukkelser og nyanser, noe som muliggjør spørringer som «folk som sitter ned og ikke har på seg rød hatt». Denne kompatibiliteten med detaljerte tekstmeldinger Det løser en historisk begrensning ved tidligere modeller, som hadde en tendens til å forvirre detaljerte konsepter.

Eksklusivt innhold - Klikk her  Macrohard: Slik ønsker Musk å bygge et programvareselskap basert på 100 % AI.

Så kommer SAM 3D inn i bildet: den starter med et bilde og genererer en tredimensjonal modell som lar deg se objektet fra andre perspektiver, omorganisere scenen eller bruke 3D-effekter. I praksis integreres den med den forrige segmenteringen for å isolere det som interesserer oss, og dermed Gjenoppbygg i 3D uten kompliserte mellomtrinn.

Nye funksjoner sammenlignet med tidligere generasjoner

SAM 1 og SAM 2 revolusjonerte segmentering ved å i stor grad stole på visuelle signaler. De slet imidlertid da de ble bedt om å gi lange tolkninger eller nyanserte instruksjoner på naturlig språk. SAM 3 bryter gjennom denne barrieren ved å innlemme multimodal forståelse som knytter tekst og bilde mer direkte sammen.

Meta følger fremgangen med en ny målestokk for åpen vokabularsegmenteringUtviklet for å evaluere tekststyrt segmentering i virkelige scenarier, og med publiseringen av SAM 3-vektene. På denne måten kan forskere og utviklere grundig måle og sammenligne resultater mellom metoder.

I sin redesign forbedrer SAM 3D Objects tidligere tilnærminger betydelig, ifølge data delt av Meta, som også lanserer kontrollpunkter, inferenskode og et evalueringssett. Sammen med SAM 3D Body lanserer selskapet SAM 3D Artist Objects, et nytt datasett laget med kunstnere for å vurdere 3D-kvalitet i et bredt utvalg av bilder.

Virkelige applikasjoner og umiddelbare brukstilfeller

Meta integrerer disse funksjonene i produktene sine. I «Edits», videoverktøyet deres for Instagram og Facebook, brukes avansert segmentering allerede for å legge til effekter på videoer. bestemte personer eller gjenstander uten å påvirke resten av bildet. Dette muliggjør bakgrunnsendringer, selektive filtre eller målrettede transformasjoner uten at det går på bekostning av kvaliteten.

Vi vil også se disse funksjonene i Vibes, i Meta AI-appen og på meta.ai-plattformen, med nye redigerings- og kreative opplevelser. Ved å tillate komplekse instruksjoner kan brukeren beskrive hva de vil endre, og systemet vil reagere deretter. automatiserer etterproduksjonsoppgaver som pleide å være slitsomt.

Innen handel skiller Facebook Marketplaces «View in Room» seg ut, og hjelper brukere med å visualisere hvordan møbler eller lamper ville sett ut i hjemmet deres takket være automatisk genererte 3D-modeller. Denne funksjonaliteten reduserer usikkerhet og forbedrer kjøpsbeslutningen, et viktig punkt når vi ikke fysisk kan se produktet.

Virkningen strekker seg til robotikk, vitenskap, utdanning og idrettsmedisin. 3D-rekonstruksjon fra enkle fotografier kan mate simulatorer, lage anatomiske referansemodeller og støtte analyseverktøy som tidligere krevde spesialutstyr. Alt dette fremmer nye arbeidsflyter innen forskning og opplæring.

Segment Anything Playground: test og lag uten friksjon

metamonopol

For å demokratisere tilgang har Meta lansert Segment Anything PlaygroundEn nettside hvor alle kan laste opp bilder eller videoer og eksperimentere med SAM 3 og SAM 3D. Grensesnittet minner om «tryllestaven» til klassiske redigeringsprogrammer, med den fordelen at vi kan skrive hva vi vil velge eller finjuster med noen få klikk.

Eksklusivt innhold - Klikk her  Steam tar det definitive spranget til en 64-biters klient på Windows

I tillegg tilbyr Playground-maler ferdige til bruk. Disse inkluderer praktiske alternativer som pikselerte ansikter eller bilskiltog mer kreative effekter som bevegelsesspor eller spotlights. Dette gjør det mulig å utføre identitetsbeskyttelsesoppgaver eller iøynefallende effekter på sekunder.

Utover segmentering kan brukere utforske scener fra nye perspektiver, omorganisere dem eller bruke tredimensjonale effekter med SAM 3D. Målet er at alle, uten forkunnskaper om 3D eller datasyn, skal kunne gjøre det. oppnå akseptable resultater på få minutter og uten å installere noe.

Modeller, åpne ressurser og evaluering

Meta har gitt ut ressurser for å hjelpe fellesskapet med å videreutvikle den nyeste teknologien. Følgende er tilgjengelig for SAM 3: modellvekter sammen med en åpen vokabular-benchmark og en teknisk artikkel som beskriver arkitekturen og opplæringen. Dette letter reproduserbarhet og rettferdige sammenligninger.

På 3D-fronten har selskapet lansert kontrollpunkter, inferenskode og en neste generasjons vurderingspakke. Dualiteten mellom SAM 3D Objects og SAM 3D Body gir omfattende dekning. generelle gjenstander og menneskekroppen med metrikker tilpasset hvert tilfelle, noe som er viktig for å vurdere geometrisk og visuell gjengivelse.

Å samarbeide med kunstnere for å lage SAM 3D Artist Objects introduserer estetiske og mangfoldskriterier i evalueringen, ikke bare tekniske. Dette er nøkkelen til å gjøre 3D-rekonstruksjon nyttig i kreative og kommersielle miljøerder kvaliteten som folk oppfatter utgjør forskjellen.

Tekstsegmentering: eksempler og fordeler

Med SAM 3 kan du skrive «rød baseballcaps», og systemet vil identifisere alle treff i et bilde eller i en video. Denne nøyaktigheten åpner døren for redigeringsarbeidsflyter der det er nok å bare skrive «rød baseballcaps». korte og klare setninger å separere elementer og bruke effekter eller transformasjoner på dem.

Kompatibilitet med multimodale språkmodeller gir rikere instruksjoner, inkludert unntak eller betingelser («personer som sitter ned uten rød lue»). Denne fleksibiliteten reduserer manuell arbeidstid og reduserer utvalgsfeil som tidligere ble korrigert for hånd.

For team som lager innhold i stor skala, akselererer tekstdrevet segmentering pipelines og gjør det enklere å standardisere resultater. Innen markedsføring kan for eksempel konsistens opprettholdes ved å bruke filtre på en produktfamilie, noe som forbedrer tid og kostnader av produksjonen.

Redigering på sosiale medier og digital kreativitet

Integrasjonen i Edits gir Instagram- og Facebook-skapere avanserte etterproduksjonsfunksjoner. Et filter som tidligere krevde komplekse masker kan nå brukes med en tekstkommando og noen få klikk, samtidig som det opprettholdes kantene og de fine detaljene stabilt bilde for bilde.

For korte klipp, der publiseringsplanen er viktig, er denne automatiseringen gull verdt. Å endre bakgrunnen til et klipp, fremheve bare én person eller transformere et bestemt objekt krever ikke lenger manuelle arbeidsflyter, og det demokratiserer effekter som tidligere var eksklusivt for profesjonelle.

I mellomtiden utvider Vibes og meta.ai utvalget av opplevelser med språkdrevet redigering og kreativitet. Ved å kunne beskrive i detalj hva vi ønsker, forkortes spranget fra idé til resultat, noe som igjen betyr flere kreative iterasjoner på kortere tid.

Eksklusivt innhold - Klikk her  WireGuard gjort enkelt: lag ditt eget VPN på 15 minutter

Handel, vitenskap og sport: utover underholdning

«View in Room» på Facebook Marketplace eksemplifiserer den praktiske verdien: å se en lampe eller et møbel i stuen før du kjøper reduserer returer og bygger tillit. Bak dette ligger en prosess som, med utgangspunkt i bilder, genererer en 3D-modell for visualisering kontekstuelle.

Innen vitenskap og utdanning reduserer rekonstruksjon fra enkle fotografier kostnadene ved å lage undervisningsmateriell og realistiske simulatorer. En AI-generert anatomisk modell kan brukes som et støtteverktøy i klasserom eller i... biomekanisk analyseakselerere innholdsforberedelse.

Innen idrettsmedisin gir kombinasjonen av kroppssammensetningsanalyse og formrekonstruksjon verktøy for å studere stillinger og bevegelser uten dyrt utstyr. Dette åpner opp muligheter for hyppigere evalueringer og fjernovervåking.

Personvern, etikk og god praksis

Kraften til disse verktøyene krever ansvar. Manipulering av bilder av mennesker uten deres samtykke kan føre til juridiske og etiske problemer. Det anbefales å unngå å rekonstruere bilder. ukjente ansikterIkke del modeller uten tillatelse, og ikke endre sensitive scener som kan forårsake forvirring eller skade.

Meta annonserer kontroller for å redusere misbruk, men det endelige ansvaret ligger hos brukeren av teknologien. Det anbefales å bekrefte opprinnelsen til bilder, beskytte personopplysninger og vurder konteksten før publisering av 3D-modeller som kan eksponere privat informasjon.

I profesjonelle sammenhenger bidrar det til ansvarlig bruk å etablere retningslinjer for gjennomgang og samtykke, og tydelig merke AI-generert innhold. Opplæring av teamet i disse temaene bidrar til å forhindre dårlig praksis allerede reagerer raskt på hendelser.

Slik konverterer du personer og objekter til 3D-modeller med SAM 3D: Slik kommer du i gang

Hvis du vil eksperimentere med en gang, er Anything Playground-segmentet inngangsporten. Der kan du laste opp et bilde eller en video, skrive inn det du vil velge og prøve ut 3D-rekonstruksjonsalternativer i et enkelt grensesnitt. For tekniske profiler, [flere alternativer er tilgjengelige]. vekter, kontrollpunkter og kode som muliggjør tilpasset testing.

Forskere, utviklere og kunstnere har et økosystem som inkluderer referansepunkter, evalueringsdatasett og dokumentasjon. Målet er å etablere et felles grunnlag for å måle fremgang og akselerere adopsjon i forskjellige seksjonerfra digital kreativitet til robotikk.

Det mest interessante er at dette spranget ikke er forbeholdt spesialister: læringskurven blir kortere, og funksjonene når hverdagsapper. Alt tyder på at redigering og 3D fortsatt vil bli integrert i arbeidsflyter der naturlig språk er grensesnittet.

Med SAM 3 og SAM 3D bringer Meta tekstsegmentering og rekonstruksjon av enkeltbilder til skapere og team i alle størrelser. Mellom Playground, integrasjon i redigeringer, åpne ressurser og applikasjoner innen handel, utdanning og sport smides et solid fundament. ny måte å jobbe med bilder og volum på som kombinerer nøyaktighet, tilgjengelighet og ansvarlighet.

Luma Ray
Relatert artikkel:
Komplett guide til Luma Ray: generering av 3D-scener fra bilder