Zet mensen en objecten om in 3D met Meta's SAM 3 en SAM 3D

Laatste update: 21/11/2025

  • SAM 3 segmenteert met gedetailleerde tekstprompts en integreert visie en taal voor een grotere nauwkeurigheid.
  • SAM 3D reconstrueert 3D-objecten en lichamen op basis van één enkele afbeelding met behulp van open bronnen.
  • Met Playground kunt u segmentatie en 3D testen zonder technische kennis of installatie.
  • Toepassingen in Edits, Marketplace en sectoren zoals onderwijs, wetenschap en sport.

Hoe u mensen en objecten kunt omzetten in 3D-modellen met SAM 3D

¿Hoe kun je mensen en objecten omzetten in 3D-modellen met SAM 3D? Kunstmatige intelligentie die op visuele middelen wordt toegepast, heeft een grote impact en nu is het, naast het nauwkeurig uitsnijden van objecten, mogelijk een enkele afbeelding omzetten in een 3D-model Klaar om vanuit meerdere perspectieven te verkennen. Meta heeft een nieuwe generatie tools geïntroduceerd die bewerking, inzicht in de visuele wereld en driedimensionale reconstructie combineert zonder dat geavanceerde apparatuur of kennis vereist is.

We hebben het over SAM 3 en SAM 3D, twee modellen die de detectie, tracking en segmentatie moeten verbeteren en de 3D-reconstructie van objecten en mensen voor een breed publiek. Hun voorstel behelst het gelijktijdig begrijpen van tekstuele instructies en visuele signalen, zodat het knippen, transformeren en reconstrueren van elementen net zo eenvoudig is als typen wat we willen of een paar keer klikken.

Wat zijn SAM 3 en SAM 3D en wat zijn de verschillen?

FDM versus 3D-harsprinten

De Segment Anything-familie van Meta wordt uitgebreid met twee nieuwe toevoegingen: SAM 3 en SAM 3D. De eerste richt zich op het identificeren, volgen en segmenteren van objecten in foto's en video's met next-generation nauwkeurigheid, terwijl de tweede Reconstrueert 3D-geometrie en -uiterlijk vanuit één enkele afbeeldingwaaronder mensen, dieren en alledaagse producten.

Het functionele verschil is duidelijk: SAM 3 zorgt voor het "begrijpen en scheiden" van visuele content, en SAM 3D gebruikt dat begrip om een ​​driedimensionaal volume te "creëren". Met deze combinatie wordt een workflow die voorheen complexe software of gespecialiseerde scanners vereiste, een fluitje van een cent. veel toegankelijker en sneller.

Bovendien beperkt SAM 3 zich niet tot eenvoudige visuele aanwijzingen. Het biedt segmentatie op basis van natuurlijke taal die de informatie kan interpreteren. zeer precieze beschrijvingenWe praten niet langer alleen over 'auto' of 'bal', maar gebruiken termen als 'rode honkbalpet' om precies die elementen in een scène te lokaliseren, zelfs in een video.

Ondertussen komt SAM 3D in twee complementaire smaken: SAM 3D Objects, gericht op objecten en scènesen SAM 3D Body, getraind om menselijke vormen en vormen te schatten. Deze specialisatie maakt het mogelijk om alles te bestrijken, van consumptiegoederen tot portretten en poses, wat de deur opent naar creatieve, commerciële en wetenschappelijke toepassingen.

Hoe slagen ze erin om uit één enkel beeld de verschillende aspecten te segmenteren en te reconstrueren?

De sleutel ligt in een architectuur die is getraind op grote hoeveelheden data om directe koppelingen te leggen tussen woorden en pixels. Het model begrijpt geschreven instructies en visuele signalen (klikken, stippen of vakjes) tegelijkertijd, zodat een verzoek vertalen naar specifieke gebieden van een foto of een videoframe.

Dit begrip van de taal gaat verder dan traditionele klassennamen. SAM 3 kan complexe instructies, uitsluitingen en nuances verwerken, waardoor zoekopdrachten zoals 'mensen die zitten en geen rode hoed dragen' mogelijk zijn. Deze compatibiliteit met gedetailleerde tekstprompts Hiermee wordt een historische beperking van eerdere modellen opgelost, die de neiging hadden om gedetailleerde concepten te verwarren.

Exclusieve inhoud - Klik hier  Dropbox kondigt de definitieve sluiting van zijn wachtwoordbeheerder aan

Dan komt SAM 3D in beeld: beginnend met een afbeelding genereert het een driedimensionaal model waarmee je het object vanuit andere perspectieven kunt bekijken, de scène kunt reorganiseren of 3D-effecten kunt toepassen. In de praktijk integreert het met de eerdere segmentatie om te isoleren wat ons interesseert en zo Herbouw in 3D zonder ingewikkelde tussenstappen.

Nieuwe functies ten opzichte van eerdere generaties

SAM 1 en SAM 2 brachten een revolutie teweeg in segmentatie door sterk te vertrouwen op visuele signalen. Ze hadden echter moeite met het geven van lange interpretaties of genuanceerde instructies in natuurlijke taal. SAM 3 doorbreekt die barrière door multimodaal begrip die tekst en visie directer met elkaar verbindt.

Meta begeleidt de vooruitgang met een nieuwe maatstaf van open woordenschatsegmentatieOntworpen om tekstgestuurde segmentatie te evalueren in praktijkscenario's, en met de publicatie van de SAM 3-gewichten. Op deze manier kunnen onderzoekers en ontwikkelaars de resultaten van verschillende methoden nauwkeurig meten en vergelijken.

In het nieuwe ontwerp is SAM 3D Objects een aanzienlijke verbetering ten opzichte van eerdere benaderingen, volgens gegevens van Meta, dat ook checkpoints, inferentiecode en een evaluatieset uitbrengt. Naast SAM 3D Body brengt het bedrijf ook SAM 3D-kunstenaarsobjecten, een nieuwe dataset die samen met kunstenaars is gemaakt om de 3D-kwaliteit in een breed scala aan afbeeldingen te beoordelen.

Toepassingen in de praktijk en directe use cases

Meta integreert deze mogelijkheden in haar producten. In "Edits", de videotool voor Instagram en Facebook, wordt geavanceerde segmentatie al gebruikt om effecten toe te passen op video's. specifieke mensen of objecten zonder de rest van de afbeelding te beïnvloeden. Dit maakt achtergrondwijzigingen, selectieve filters of gerichte transformaties mogelijk zonder dat dit ten koste gaat van de kwaliteit.

We zullen deze functies ook zien in Vibes, in de Meta AI-app en op het meta.ai-platform, met nieuwe bewerkings- en creatieve mogelijkheden. Door complexe instructies toe te staan, kan de gebruiker beschrijven wat hij wil aanpassen, waarna het systeem hierop zal reageren. automatiseert postproductietaken dat was vroeger heel arbeidsintensief.

In de commerciële sector valt de "View in Room" van Facebook Marketplace op. Deze functie helpt gebruikers te visualiseren hoe meubels of lampen in hun huis zouden staan ​​dankzij automatisch gegenereerde 3D-modellen. Deze functionaliteit vermindert onzekerheid en verbetert de aankoopbeslissing, een belangrijk punt wanneer we het product niet fysiek kunnen zien.

De impact strekt zich uit tot robotica, wetenschap, onderwijs en sportgeneeskunde. 3D-reconstructie op basis van eenvoudige foto's kan simulatoren voeden, anatomische referentiemodellen creëren en analysetools ondersteunen waarvoor voorheen gespecialiseerde apparatuur nodig was. Dit alles bevordert nieuwe workflows in onderzoek en opleiding.

Segment Anything Playground: test en creëer zonder wrijving

meta-monopolie

Om de toegang te democratiseren, heeft Meta een platform gelanceerd Segmenteer alles speeltuinEen website waar iedereen afbeeldingen of video's kan uploaden en kan experimenteren met SAM 3 en SAM 3D. De interface doet denken aan de 'toverstaf' van klassieke editors, met als voordeel dat we... schrijf wat we willen selecteren of verfijn met een paar klikken.

Exclusieve inhoud - Klik hier  Hoe Grok Code Fast 1 stap voor stap op Windows 11 te installeren

Daarnaast biedt de Playground kant-en-klare templates. Deze bevatten praktische opties zoals pixeleer gezichten of kentekenplatenen creatievere effecten zoals bewegingssporen of spotlights. Dit maakt het mogelijk om binnen enkele seconden identiteitsbeschermende taken of opvallende effecten te realiseren.

Naast segmentatie kunnen gebruikers met SAM 3D scènes vanuit nieuwe perspectieven verkennen, ze herschikken of driedimensionale effecten toepassen. Het doel is dat iedereen, zonder voorkennis van 3D of computer vision, dit kan doen. acceptabele resultaten behalen binnen enkele minuten en zonder dat u iets hoeft te installeren.

Modellen, open bronnen en evaluatie

Meta heeft bronnen vrijgegeven om de community te helpen de nieuwste technologieën te ontwikkelen. Voor SAM 3 zijn de volgende bronnen beschikbaar: modelgewichten samen met een open woordenschatbenchmark en een technisch document met details over de architectuur en training. Dit vergemakkelijkt reproduceerbaarheid en eerlijke vergelijkingen.

Op het gebied van 3D heeft het bedrijf controlepunten, inferentiecode en een next-generation assessment suite uitgebracht. De combinatie van SAM 3D Objects en SAM 3D Body zorgt voor een uitgebreide dekking. algemene objecten en het menselijk lichaam met aan elk geval aangepaste metrieken, wat essentieel is om de geometrische en visuele getrouwheid te beoordelen.

Door samen te werken met kunstenaars om SAM 3D Artist Objects te creëren, worden esthetische en diversiteitscriteria in de evaluatie geïntroduceerd, niet alleen technische. Dit is essentieel om 3D-reconstructie bruikbaar te maken in creatieve en commerciële omgevingenwaar de door mensen waargenomen kwaliteit het verschil maakt.

Tekstsegmentatie: voorbeelden en voordelen

Met SAM 3 typ je "rode baseballpet" en het systeem identificeert alle overeenkomsten in een afbeelding of video. Deze nauwkeurigheid maakt bewerkingsworkflows mogelijk waarbij het simpelweg typen van "rode baseballpet" voldoende is. korte en duidelijke zinnen om elementen te scheiden en effecten of transformaties op hen toe te passen.

Compatibiliteit met multimodale taalmodellen maakt rijkere instructies mogelijk, inclusief uitsluitingen of voorwaarden ("mensen die zitten zonder rode muts"). Deze flexibiliteit vermindert de handmatige werkuren en vermindert selectiefouten die eerder met de hand zijn gecorrigeerd.

Voor teams die op grote schaal content creëren, versnelt tekstgestuurde segmentatie de pipelines en maakt het eenvoudiger om resultaten te standaardiseren. In marketing kan consistentie bijvoorbeeld worden gehandhaafd door filters toe te passen op een productfamilie, iets dat verbetert tijd en kosten van de productie.

Bewerken van sociale media en digitale creativiteit

De integratie in Edits biedt Instagram- en Facebook-makers geavanceerde postproductiefuncties. Een filter dat voorheen complexe maskers vereiste, kan nu worden toegepast met een tekstopdracht en een paar klikken, terwijl de functionaliteit behouden blijft. de randen en fijne details stabiel frame voor frame.

Voor korte stukken, waar het publicatieschema van belang is, is deze automatisering goud waard. Het wijzigen van de achtergrond van een clip, het markeren van slechts één persoon of het transformeren van een specifiek object vereist geen handmatige workflows meer, en dat democratiseert effecten die voorheen uitsluitend toegankelijk waren voor professionals.

Ondertussen breiden Vibes en meta.ai het scala aan ervaringen uit met taalgestuurde bewerking en creativiteit. Door gedetailleerd te kunnen beschrijven wat we willen, wordt de sprong van idee naar resultaat korter, wat zich vertaalt in meer creatieve iteraties in minder tijd.

Exclusieve inhoud - Klik hier  MAI-Voice-1 van Microsoft genereert in minder dan een seconde een minuut aan stemgeluid. Op deze manier wil het bedrijf Copilot en elke andere app een "natuurlijke" voice-over geven.

Handel, wetenschap en sport: meer dan alleen entertainment

"View in Room" op Facebook Marketplace illustreert de praktische waarde: een lamp of meubelstuk in je woonkamer zien voordat je het koopt, vermindert retouren en bouwt vertrouwen op. Hierachter schuilt een pijplijn die, beginnend met afbeeldingen, een 3D-model voor visualisatie contextueel.

In de wetenschap en het onderwijs verlaagt reconstructie op basis van eenvoudige foto's de kosten voor het maken van lesmateriaal en realistische simulatoren. Een door AI gegenereerd anatomisch model kan worden gebruikt als hulpmiddel in klaslokalen of in... biomechanische analyseversnellen van de inhoudelijke voorbereiding.

In de sportgeneeskunde biedt de combinatie van lichaamscompositieanalyse en vormreconstructie hulpmiddelen voor het bestuderen van houdingen en bewegingen zonder dure apparatuur. Dit opent mogelijkheden voor frequentere evaluaties en bewaking op afstand.

Privacy, ethiek en goede praktijken

De kracht van deze tools vereist verantwoordelijkheid. Het manipuleren van afbeeldingen van mensen zonder hun toestemming kan leiden tot juridische en ethische problemen. Het is raadzaam om reconstructies van afbeeldingen te vermijden. onbekende gezichtenDeel geen modellen zonder toestemming en wijzig geen gevoelige scènes die verwarring of schade kunnen veroorzaken.

Meta kondigt maatregelen aan om misbruik tegen te gaan, maar de uiteindelijke verantwoordelijkheid ligt bij de gebruiker van de technologie. Het is raadzaam om de herkomst van afbeeldingen te verifiëren, persoonlijke gegevens te beschermen en de context beoordelen voordat ze 3D-modellen publiceren die mogelijk privé-informatie blootleggen.

In professionele omgevingen dragen het opstellen van beoordelings- en toestemmingsbeleid en het duidelijk labelen van door AI gegenereerde content bij aan verantwoord gebruik. Het trainen van het team in deze onderwerpen helpt hierbij. slechte praktijken voorkomen reageren al snel op incidenten.

Mensen en objecten omzetten in 3D-modellen met SAM 3D: hoe u aan de slag gaat

Als je direct wilt experimenteren, is het Anything Playground-segment de toegangspoort. Daar kun je een foto of video uploaden, typen wat je wilt selecteren en 3D-reconstructieopties uitproberen binnen een eenvoudige interface. Voor technische profielen zijn er [meer opties beschikbaar]. gewichten, controlepunten en code die maatwerktesten mogelijk maken.

Onderzoekers, ontwikkelaars en kunstenaars beschikken over een ecosysteem dat benchmarks, evaluatiedatasets en documentatie omvat. Het doel is om een ​​gemeenschappelijke basis te creëren voor het meten van de voortgang en het versnellen van de acceptatie in verschillende sectorenvan digitale creativiteit tot robotica.

Het meest interessante is dat deze sprong niet alleen is voorbehouden aan specialisten: de leercurve wordt korter en de functies bereiken alledaagse apps. Alles wijst erop dat bewerking en 3D geïntegreerd zullen blijven in workflows waar natuurlijke taal is de interface.

Met SAM 3 en SAM 3D biedt Meta tekstsegmentatie en reconstructie van afzonderlijke afbeeldingen voor makers en teams van elke omvang. Tussen de Playground, integratie in Edits, open resources en applicaties in de commerciële sector, het onderwijs en de sportsector wordt een solide basis gelegd. nieuwe manier van werken met beeld en volume die nauwkeurigheid, toegankelijkheid en verantwoordelijkheid combineert.

Luma-straal
Gerelateerd artikel:
Complete gids voor Luma Ray: 3D-scènes genereren uit foto's