- SAM 3 introduserer bilde- og videosegmentering veiledet av tekst og visuelle eksempler, med et vokabular på millioner av konsepter.
- SAM 3D lar deg rekonstruere objekter, scener og menneskekropper i 3D fra ett enkelt bilde, ved hjelp av åpne modeller.
- Modeller kan testes uten teknisk kunnskap i Segment Anything Playground, med praktiske og kreative maler.
- Meta lanserer vekter, kontrollpunkter og nye referansepunkter slik at utviklere og forskere i Europa og resten av verden kan integrere disse funksjonene i prosjektene sine.
Meta har tatt et nytt skritt i sin forpliktelse til kunstig intelligens anvendt på datasyn med lansering av SAM 3 og SAM 3D, to modeller som utvider Segment Anything-familien, og som De har som mål å endre måten vi jobber med bilder og videoer påSelskapet ønsker at disse verktøyene skal brukes av både fagfolk og brukere uten teknisk bakgrunn, og er langt fra å forbli et laboratorieeksperiment.
Med denne nye generasjonen fokuserer Meta på forbedre objektdeteksjon og segmentering og ved å bringe tredimensjonal rekonstruksjon til et mye bredere publikumFra videoredigering til produktvisualisering for e-handel i Spania og resten av Europa, ser selskapet for seg et scenario der Det er nok å bare beskrive hva du vil gjøre med ord for at AI skal gjøre det meste av det tunge arbeidet..
Hva tilbyr SAM 3 sammenlignet med tidligere versjoner?
SAM 3 er posisjonert som den direkte evolusjonen av segmenteringsmodellene som Meta presenterte i 2023 og 2024, kjent som SAM 1 og SAM 2. Disse tidlige versjonene fokuserte på å identifisere hvilke piksler som tilhørte hvert objekt, hovedsakelig ved hjelp av visuelle signaler som prikker, bokser eller masker, og i tilfellet med SAM 2, å følge objekter gjennom en video nesten i sanntid.
Den viktigste nye utviklingen nå er at SAM 3 forstår rike og presise tekstmeldingerikke bare generelle etiketter. Mens man før brukte enkle begreper som «bil» eller «buss», er den nye modellen i stand til å svare på mye mer spesifikke beskrivelser, for eksempel «gul skolebuss» eller «rød bil dobbeltparkert».
I praksis betyr dette at det er nok å skrive noe sånt som «rød baseballcaps» slik at systemet kan finne og skille alle elementene som passer til beskrivelsen i et bilde eller en video. Denne muligheten til å avgrense med ord er spesielt nyttig i profesjonelle redigeringskontekster, reklame eller innholdsanalyse, hvor du ofte må se på svært spesifikke detaljer.
Videre er SAM 3 designet for å integreres med store multimodale språkmodellerDette lar deg gå utover enkle fraser og bruke komplekse instruksjoner som: «Folk som sitter ned, men ikke har på seg rød lue» eller «fotgjengere som ser på kameraet, men uten ryggsekk». Denne typen instruksjon kombinerer betingelser og unntak som inntil nylig var vanskelige å oversette til et datasynsverktøy.
Ytelse og skala til SAM 3-modellen

Meta ønsket også å fremheve den mindre synlige, men avgjørende delen: teknisk ytelse og kunnskapsskala av modellen. Ifølge selskapets data er SAM 3 i stand til å behandle et enkelt bilde med mer enn hundre oppdagede objekter på rundt 30 millisekunder ved hjelp av en H200 GPU, en hastighet som er svært nær det som trengs for krevende arbeidsflyter.
Når det gjelder videoen, forsikrer firmaet at systemet opprettholder ytelsen. praktisk talt i sanntid når man jobber med rundt fem samtidige objekter, noe som gjør det mulig å spore og segmentere innhold i bevegelse, fra korte klipp fra sosiale medier til mer ambisiøse produksjonsprosjekter.
For å oppnå denne oppførselen har Meta bygget en treningsbase med mer enn 4 millioner unike konsepterDenne blandingen av manuell og automatisert overvåking, som kombinerer menneskelige annotatorer med AI-modeller for å hjelpe med å merke store datamengder, har som mål å balansere nøyaktighet og skala – noe som er nøkkelen til å sikre at modellen responderer godt på ulike input i europeiske, latinamerikanske og andre markedskontekster.
Selskapet rammer SAM 3 inn innenfor det de kaller Segment Anything-samlingenEn familie av modeller, referansetester og ressurser utviklet for å utvide den visuelle forståelsen av kunstig intelligens. Lanseringen ledsages av en ny referansetester for segmentering av «åpent vokabular», fokusert på å måle i hvilken grad systemet kan forstå nesten ethvert konsept uttrykt i naturlig språk.
Integrasjon med Edits, Vibes og andre Meta-verktøy

Utover den tekniske komponenten har Meta allerede begynt å integrere SAM 3 i spesifikke produkter som er beregnet for daglig bruk. En av de første destinasjonene vil være Redigeringer, deres program for videoproduksjon og -redigering, der ideen er at brukeren kan velge bestemte personer eller objekter med en enkel tekstbeskrivelse og bruke effekter, filtre eller endringer kun på disse delene av opptaket.
En annen vei til integrering vil bli funnet i Vibes, i Meta AI-appen og meta.ai-plattformenI dette miljøet vil tekstsegmentering bli kombinert med generative verktøy for å skape nye redigerings- og kreative opplevelser, som tilpassede bakgrunner, bevegelseseffekter eller selektive fotomodifikasjoner designet for sosiale nettverk som er svært populære i Spania og resten av Europa.
Selskapets forslag er at disse mulighetene ikke skal begrenses til profesjonelle studier, men snarere nå... uavhengige skapere, små byråer og avanserte brukere som jobber daglig med visuelt innhold. Muligheten til å segmentere scener ved å skrive beskrivelser i naturlig språk reduserer læringskurven sammenlignet med tradisjonelle verktøy basert på manuelle masker og lag.
Samtidig opprettholder Meta en åpen tilnærming til eksterne utviklere, og foreslår at tredjeparts applikasjoner – fra redigeringsverktøy til løsninger for videoanalyse i detaljhandel eller sikkerhet – kan stole på SAM 3 så lenge selskapets bruksregler respekteres.
SAM 3D: Tredimensjonal rekonstruksjon fra et enkelt bilde

Den andre store nyheten er SAM 3Det system designet for å utføre tredimensjonale rekonstruksjoner med utgangspunkt i 2D-bilder. I stedet for å trenge flere bilder fra forskjellige vinkler, tar modellen sikte på å generere en pålitelig 3D-representasjon fra ett enkelt bilde, noe som er spesielt interessant for de som ikke har spesialisert skanneutstyr eller arbeidsflyter.
SAM 3D består av to modeller med åpen kildekode med forskjellige funksjoner: SAM 3D-objekterfokusert på å rekonstruere objekter og scener, og SAM 3D-kropp, rettet mot å estimere menneskelig form og kropp. Denne separasjonen gjør at systemet kan tilpasses svært forskjellige bruksområder, fra produktkataloger til helse- eller sportsapplikasjoner.
Ifølge Meta markerer SAM 3D Objects en Ny ytelsesstandard i AI-veiledet 3D-rekonstruksjonog overgår lett tidligere metoder innen viktige kvalitetsmålinger. For å evaluere resultatene grundigere har selskapet samarbeidet med kunstnere for å lage SAM 3D Artist Objects, et datasett som er spesielt utviklet for å vurdere gjengivelseskvaliteten og detaljene i rekonstruksjoner på tvers av et bredt spekter av bilder og objekter.
Dette fremskrittet åpner døren for praktiske anvendelser innen områder som robotikk, vitenskap, idrettsmedisin eller digital kreativitetInnen robotikk kan det for eksempel hjelpe systemer med å bedre forstå volumet til objektene de samhandler med; i medisinsk eller sportsforskning kan det bidra til å analysere kroppsholdning og bevegelse; og i kreativ design fungerer det som grunnlag for å generere 3D-modeller for animasjon, videospill eller immersive opplevelser.
En av de første kommersielle applikasjonene som allerede er synlige er funksjonen "Utsikt på rommet" de Facebook Marketplacesom lar deg visualisere hvordan et møbel eller en dekorativ gjenstand ville sett ut i et ekte rom før du kjøper det. Med SAM 3D, Meta søker å perfeksjonere denne typen opplevelser, svært relevant for europeisk e-handel, hvor retur av produkter på grunn av uoppfylte forventninger representerer en økende kostnad.
Segment Anything Playground: et miljø for eksperimentering

For å la publikum teste disse funksjonene uten å installere noe, har Meta aktivert Segment Anything PlaygroundDet er en nettplattform som lar deg laste opp bilder eller videoer og eksperimentere med SAM 3 og SAM 3D direkte fra nettleseren din. Tanken er at alle som er nysgjerrige på visuell AI kan utforske hva som er mulig uten programmeringskunnskaper.
Når det gjelder SAM 3, tillater Playground segmentering av objekter ved hjelp av korte setninger eller detaljerte instruksjonerKombinering av tekst og, om ønskelig, visuelle eksempler. Dette forenkler vanlige oppgaver som å velge personer, biler, dyr eller bestemte elementer i scenen og bruke bestemte handlinger på dem, fra estetiske effekter til uskarphet eller bakgrunnserstatning.
Når man jobber med SAM 3D, gjør plattformen det mulig Utforsk scener fra nye perspektiveromorganisere objekter, bruke tredimensjonale effekter eller generere alternative visninger. For de som jobber med design, reklame eller 3D-innhold, tilbyr det en rask måte å prototype ideer uten å måtte bruke komplekse tekniske verktøy fra starten av.
Lekeplassen inneholder også en rekke klare maler Disse funksjonene er rettet mot svært spesifikke oppgaver. De inkluderer praktiske alternativer som pikselering av ansikter eller bilskilt av personvernhensyn, og visuelle effekter som bevegelsesspor, selektive høydepunkter eller spotlights på interessante områder i videoen. Denne typen funksjoner kan være spesielt godt egnet for arbeidsflytene til digitale medier og innholdsskapere i Spania, hvor produksjonen av korte videoer og innhold på sosiale medier er konstant.
Åpne ressurser for utviklere og forskere

I tråd med strategien Meta har fulgt i andre AI-utgivelser, har selskapet besluttet å gi ut en betydelig del av tekniske ressurser knyttet til SAM 3 og SAM 3DFor det første har modellvektene, en ny referanseindeks fokusert på åpen vokabularsegmentering og et teknisk dokument som beskriver utviklingen av den blitt offentliggjort.
Når det gjelder SAM 3D, er følgende tilgjengelig: modellsjekkpunkter, inferenskode og et evalueringsdatasett neste generasjon. Dette datasettet inneholder et betydelig utvalg av bilder og objekter som har som mål å gå utover tradisjonelle 3D-referansepunkter, og gir større realisme og kompleksitet, noe som kan være svært nyttig for europeiske forskningsgrupper som jobber med datasyn og grafikk.
Meta har også annonsert samarbeid med annotasjonsplattformer som Roboflow, med mål om å gjøre det mulig for utviklere og selskaper å Skriv inn dine egne data og juster SAM 3 til spesifikke behov. Dette åpner døren for sektorspesifikke løsninger, fra industriell inspeksjon til analyse av bytrafikk, inkludert kulturarvprosjekter der det er viktig å segmentere arkitektoniske eller kunstneriske elementer nøyaktig.
Ved å velge en relativt åpen tilnærming, søker selskapet å sikre at utviklernes økosystem, universiteter og oppstartsbedrifter – inkludert de som opererer i Spania og resten av Europa – kan eksperimentere med disse teknologiene, integrere dem i sine egne produkter og til slutt bidra med brukstilfeller som går utover de Meta kan utvikle internt.
Med SAM 3 og SAM 3D har Meta som mål å konsolidere en mer fleksibel og tilgjengelig visuell AI-plattformder tekststyrt segmentering og 3D-rekonstruksjon fra et enkelt bilde ikke lenger er funksjoner forbeholdt høyt spesialiserte team. Den potensielle effekten strekker seg fra daglig videoredigering til avanserte applikasjoner innen vitenskap, industri og e-handel, i en kontekst der kombinasjonen av språk, datasyn og kreativitet er i ferd med å bli et standard arbeidsverktøy og ikke bare et teknologisk løfte.
Jeg er en teknologientusiast som har gjort sine "geek"-interesser til et yrke. Jeg har brukt mer enn 10 år av livet mitt på å bruke banebrytende teknologi og fikse med alle slags programmer av ren nysgjerrighet. Nå har jeg spesialisert meg på datateknologi og videospill. Dette er fordi jeg i mer enn 5 år har skrevet for forskjellige nettsteder om teknologi og videospill, og laget artikler som prøver å gi deg den informasjonen du trenger på et språk som er forståelig for alle.
Hvis du har spørsmål, spenner min kunnskap fra alt relatert til Windows-operativsystemet samt Android for mobiltelefoner. Og mitt engasjement er til deg, jeg er alltid villig til å bruke noen minutter og hjelpe deg med å løse eventuelle spørsmål du måtte ha i denne internettverdenen.