- SAM 3 introduceert beeld- en videosegmentatie aan de hand van tekstuele en visuele voorbeelden, met een vocabulaire van miljoenen concepten.
- Met SAM 3D kunt u objecten, scènes en menselijke lichamen in 3D reconstrueren op basis van één enkele afbeelding, met behulp van open modellen.
- In Segment Anything Playground kunt u modellen testen zonder dat u technische kennis nodig hebt, dankzij praktische en creatieve sjablonen.
- Meta brengt gewichten, controlepunten en nieuwe benchmarks uit, zodat ontwikkelaars en onderzoekers in Europa en de rest van de wereld deze mogelijkheden in hun projecten kunnen integreren.
Meta heeft een nieuwe stap gezet in haar streven naar kunstmatige intelligentie toegepast op computer vision de lancering van SAM 3 en SAM 3D, twee modellen die de Segment Anything-familie uitbreiden en die Ze willen de manier waarop we met foto's en video's werken veranderenHet bedrijf wil dat de hulpmiddelen niet bij een laboratoriumexperiment blijven: ze moeten door zowel professionals als gebruikers zonder technische achtergrond gebruikt kunnen worden.
Met deze nieuwe generatie richt Meta zich op Verbeter objectdetectie en -segmentatie en bij het brengen van de driedimensionale reconstructie voor een veel breder publiekVan videobewerking tot productvisualisatie voor e-commerce in Spanje en de rest van Europa, het bedrijf voorziet een scenario waarin Als u simpelweg in woorden beschrijft wat u wilt doen, doet de AI het meeste werk..
Wat biedt SAM 3 vergeleken met eerdere versies?
SAM 3 wordt gepositioneerd als de directe evolutie van de segmentatiemodellen die Meta in 2023 en 2024 presenteerde, bekend als SAM 1 en SAM 2. Deze vroege versies waren gericht op het identificeren van welke pixels bij welk object hoorden, voornamelijk met behulp van visuele aanwijzingen zoals stippen, vakken of maskers, en in het geval van SAM 2, het bijna in realtime volgen van objecten in een video.
De belangrijkste nieuwe ontwikkeling is nu dat SAM 3 begrijpt rijke en precieze tekstpromptsniet alleen algemene labels. Waar voorheen simpele termen als "auto" of "bus" werden gebruikt, kan het nieuwe model reageren op veel specifiekere beschrijvingen, bijvoorbeeld "gele schoolbus" of "rode auto dubbel geparkeerd".
In de praktijk betekent dit dat het voldoende is om iets te schrijven als "rode honkbalpet" zodat het systeem alle elementen die bij die beschrijving passen in een afbeelding of video kan lokaliseren en scheiden. Deze mogelijkheid om met woorden te verfijnen is vooral handig in professionele bewerkingscontexten, reclame of inhoudsanalyse, waarbij je vaak naar heel specifieke details moet kijken.
Bovendien is SAM 3 ontworpen om te integreren met grote multimodale taalmodellenHiermee kunt u verder gaan dan eenvoudige zinnen en complexe instructies gebruiken, zoals: “Mensen zitten, maar dragen geen rode pet” of "voetgangers die naar de camera kijken, maar zonder rugzak." Dit type instructie combineert voorwaarden en uitsluitingen die tot voor kort moeilijk te vertalen waren naar een computer vision-tool.
Prestaties en schaal van het SAM 3-model

Meta wilde ook het minder zichtbare maar cruciale deel benadrukken: de technische prestatie- en kennisschaal van het model. Volgens de gegevens van het bedrijf kan SAM 3 een enkele afbeelding met meer dan honderd gedetecteerde objecten verwerken in ongeveer 30 milliseconden met behulp van een H200 GPU, een snelheid die zeer dicht in de buurt komt van wat nodig is voor veeleisende workflows.
In het geval van de video verzekert het bedrijf dat het systeem zijn prestaties behoudt vrijwel in realtime bij het werken met ongeveer vijf objecten tegelijk, waardoor het mogelijk is om bewegende content te volgen en te segmenteren, van korte clips voor sociale media tot ambitieuzere productieprojecten.
Om dit gedrag te bereiken, heeft Meta een trainingsbasis opgebouwd met meer dan 4 miljoen unieke conceptenDoor menselijke annotators te combineren met AI-modellen om grote hoeveelheden data te labelen, streeft deze combinatie van handmatig en geautomatiseerd toezicht naar een evenwicht tussen nauwkeurigheid en schaal, wat essentieel is om te garanderen dat het model goed reageert op uiteenlopende input in Europese, Latijns-Amerikaanse en andere marktcontexten.
Het bedrijf kadert SAM 3 binnen wat het noemt Segmenteer alles-collectieEen reeks modellen, benchmarks en hulpmiddelen ontworpen om het visuele begrip van AI te vergroten. De lancering gaat gepaard met een nieuwe benchmark voor segmentatie van "open woordenschat", gericht op het meten van de mate waarin het systeem vrijwel elk concept in natuurlijke taal kan begrijpen.
Integratie met Edits, Vibes en andere Meta-tools

Naast het technische component is Meta al begonnen met SAM 3 integreren in specifieke producten die bedoeld zijn voor dagelijks gebruik. Een van de eerste bestemmingen zal Edits zijn, hun applicatie voor het maken en bewerken van video's, waarbij het idee is dat de gebruiker specifieke personen of objecten kan selecteren met een eenvoudige tekstbeschrijving en effecten, filters of wijzigingen kan toepassen op alleen die delen van de beelden.
Een andere mogelijkheid tot integratie is te vinden in Vibes, binnen de Meta AI-app en het meta.ai-platformIn deze omgeving wordt tekstsegmentatie gecombineerd met generatieve hulpmiddelen om nieuwe bewerkings- en creatieve ervaringen te creëren, zoals aangepaste achtergronden, bewegingseffecten of selectieve fotowijzigingen die zijn ontworpen voor sociale netwerken die erg populair zijn in Spanje en de rest van Europa.
Het voorstel van het bedrijf is dat deze mogelijkheden niet beperkt blijven tot professionele studies, maar dat ze zich uitstrekken tot... onafhankelijke makers, kleine bureaus en gevorderde gebruikers die dagelijks met visuele content werken. De mogelijkheid om scènes te segmenteren door beschrijvingen in natuurlijke taal te schrijven, vermindert de leercurve in vergelijking met traditionele tools gebaseerd op handmatige maskers en lagen.
Tegelijkertijd hanteert Meta een open benadering ten opzichte van externe ontwikkelaars, wat suggereert dat toepassingen van derden -van bewerkingshulpmiddelen tot oplossingen voor videoanalyse in de detailhandel of beveiliging- kunnen op SAM 3 vertrouwen, zolang het gebruiksbeleid van het bedrijf wordt gerespecteerd.
SAM 3D: Driedimensionale reconstructie vanuit één enkele afbeelding

Het andere grote nieuws is SAM 3Deen systeem dat is ontworpen om te presteren driedimensionale reconstructies Uitgaande van 2D-beelden. In plaats van meerdere opnamen vanuit verschillende hoeken nodig te hebben, streeft het model ernaar een betrouwbare 3D-weergave te genereren op basis van één foto. Dit is vooral interessant voor mensen die niet over gespecialiseerde scanapparatuur of workflows beschikken.
SAM 3D bestaat uit twee open-sourcemodellen met verschillende functies: SAM 3D-objectengericht op het reconstrueren van objecten en scènes, en SAM 3D-lichaam, gericht op het inschatten van de menselijke vorm en het lichaam. Deze scheiding maakt het mogelijk om het systeem aan te passen aan zeer uiteenlopende toepassingen, van productcatalogi tot gezondheids- of sporttoepassingen.
Volgens Meta markeert SAM 3D Objects een Nieuwe prestatiebenchmark in AI-gestuurde 3D-reconstructieHiermee overtreffen we eerdere methoden met gemak op het gebied van belangrijke kwaliteitsparameters. Om de resultaten nauwkeuriger te evalueren, heeft het bedrijf samengewerkt met kunstenaars om SAM 3D Artist Objects te creëren, een dataset die speciaal is ontworpen om de getrouwheid en details van reconstructies van een breed scala aan afbeeldingen en objecten te beoordelen.
Deze vooruitgang opent de deur naar praktische toepassingen op gebieden zoals robotica, wetenschap, sportgeneeskunde of digitale creativiteitIn de robotica kan het bijvoorbeeld systemen helpen het volume van de objecten waarmee ze interacteren beter te begrijpen; in medisch of sportonderzoek kan het helpen bij het analyseren van lichaamshouding en -bewegingen; en in creatief ontwerp dient het als basis voor het genereren van 3D-modellen voor animatie, videogames of meeslepende ervaringen.
Een van de eerste commerciële toepassingen die al zichtbaar is, is de functie "Uitzicht in kamer" de Facebook Marketplacewaarmee u kunt visualiseren hoe een meubelstuk of decoratief object er in een echte kamer uitziet voordat u het koopt. Met SAM 3D, Meta streeft ernaar dit soort ervaringen te perfectioneren, zeer relevant voor de Europese e-commerce, waar het retourneren van producten vanwege niet-vervulde verwachtingen een stijgende kostenpost vormt.
Segment Anything Playground: een omgeving om te experimenteren

Om het publiek de mogelijkheid te geven deze mogelijkheden te testen zonder iets te installeren, heeft Meta de volgende mogelijkheden ingeschakeld: Segmenteer alles speeltuinHet is een webplatform waarmee je afbeeldingen of video's kunt uploaden en direct vanuit je browser kunt experimenteren met SAM 3 en SAM 3D. Het idee is dat iedereen die geïnteresseerd is in visuele AI, kan ontdekken wat er mogelijk is, zonder enige programmeerkennis.
In het geval van SAM 3 maakt de Playground het mogelijk om objecten te segmenteren met behulp van korte zinnen of gedetailleerde instructiesCombineer tekst en, indien gewenst, visuele voorbeelden. Dit vereenvoudigt veelvoorkomende taken, zoals het selecteren van mensen, auto's, dieren of specifieke elementen van de scène en het toepassen van specifieke acties erop, van esthetische effecten tot vervaging of achtergrondvervanging.
Bij het werken met SAM 3D maakt het platform het mogelijk Ontdek scènes vanuit nieuwe perspectievenHerschik objecten, pas driedimensionale effecten toe of genereer alternatieve weergaven. Voor mensen die in de ontwerp-, reclame- of 3D-wereld werken, biedt het een snelle manier om ideeën te prototypen zonder vanaf het begin complexe technische tools te hoeven gebruiken.
De speeltuin omvat ook een reeks kant-en-klare sjablonen Deze functies zijn gericht op zeer specifieke taken. Ze omvatten praktische opties zoals het pixeleren van gezichten of kentekenplaten om privacyredenen, en visuele effecten zoals bewegingssporen, selectieve highlights of spotlights op interessante gebieden in de video. Dit soort functies kan bijzonder goed aansluiten op de workflows van digitale media- en contentmakers in Spanje, waar de productie van korte video's en social media-content een constante is.
Open bronnen voor ontwikkelaars en onderzoekers

In lijn met de strategie die Meta heeft gevolgd in andere AI-releases, heeft het bedrijf besloten een aanzienlijk deel van de technische bronnen met betrekking tot SAM 3 en SAM 3DTen eerste zijn de modelgewichten, een nieuwe maatstaf gericht op open woordenschatsegmentatie en een technisch document waarin de ontwikkeling ervan wordt beschreven, openbaar gemaakt.
In het geval van SAM 3D zijn de volgende opties beschikbaar: modelcontrolepunten, inferentiecode en een evaluatiedataset volgende generatie. Deze dataset bevat een aanzienlijke verscheidenheid aan afbeeldingen en objecten die verder gaan dan traditionele 3D-referentiepunten en zo voor meer realisme en complexiteit zorgen, iets wat zeer nuttig kan zijn voor Europese onderzoeksgroepen die zich bezighouden met computer vision en graphics.
Meta heeft ook samenwerkingen aangekondigd met annotatieplatforms zoals Roboflow, met als doel ontwikkelaars en bedrijven in staat te stellen Voer uw eigen gegevens in en pas SAM 3 aan aan specifieke behoeften. Dit opent de deur naar sectorspecifieke oplossingen, van industriële inspectie tot analyse van stedelijk verkeer, inclusief cultureel erfgoedprojecten waarbij het belangrijk is om architectonische of artistieke elementen nauwkeurig te segmenteren.
Door te kiezen voor een relatief open aanpak wil het bedrijf ervoor zorgen dat het ontwikkelaarsecosysteem, universiteiten en startups - inclusief die welke in Spanje en de rest van Europa actief zijn - kunnen experimenteren met deze technologieën, ze integreren in hun eigen producten en uiteindelijk use cases aandragen die verder gaan dan de cases die Meta intern kan ontwikkelen.
Met SAM 3 en SAM 3D wil Meta een flexibeler en toegankelijker visueel AI-platformWaar tekstgestuurde segmentatie en 3D-reconstructie vanuit één enkele afbeelding niet langer voorbehouden zijn aan zeer gespecialiseerde teams. De potentiële impact strekt zich uit van alledaagse videobewerking tot geavanceerde toepassingen in de wetenschap, industrie en e-commerce, in een context waarin de combinatie van taal, computer vision en creativiteit een standaard werkinstrument wordt en niet slechts een technologische belofte.
Ik ben een technologieliefhebber die van zijn 'nerd'-interesses zijn beroep heeft gemaakt. Ik heb meer dan 10 jaar van mijn leven doorgebracht met het gebruik van de allernieuwste technologie en het sleutelen aan allerlei programma's uit pure nieuwsgierigheid. Nu heb ik mij gespecialiseerd in computertechnologie en videogames. Dit komt omdat ik al meer dan vijf jaar voor verschillende websites over technologie en videogames schrijf en artikelen heb gemaakt die proberen u de informatie te geven die u nodig heeft in een taal die voor iedereen begrijpelijk is.
Als je vragen hebt, mijn kennis strekt zich uit van alles wat te maken heeft met het Windows-besturingssysteem tot Android voor mobiele telefoons. En mijn toewijding is aan jou, ik ben altijd bereid om een paar minuten te besteden en je te helpen bij het oplossen van eventuele vragen die je hebt in deze internetwereld.