- SAM 3 enkondukas bildan kaj videan segmentadon gvidatan de teksto kaj vidaj ekzemploj, kun vortprovizo de milionoj da konceptoj.
- SAM 3D permesas al vi rekonstrui objektojn, scenojn kaj homajn korpojn en 3D el ununura bildo, uzante malfermajn modelojn.
- Modeloj povas esti testitaj sen teknika scio en Segment Anything Playground, kun praktikaj kaj kreivaj ŝablonoj.
- Meta publikigas pezojn, kontrolpunktojn kaj novajn komparnormojn por ke programistoj kaj esploristoj en Eŭropo kaj la resto de la mondo povu integri ĉi tiujn kapablojn en siajn projektojn.
Meta faris plian paŝon en sia engaĝiĝo al artefarita inteligenteco aplikita al komputila vidado kun la lanĉo de SAM 3 kaj SAM 3D, du modeloj kiuj vastigas la familion Segment Anything kaj ke Ili celas ŝanĝi la manieron kiel ni laboras kun fotoj kaj filmetojAnstataŭ resti laboratoria eksperimento, la kompanio volas, ke ĉi tiuj iloj estu uzataj kaj de profesiuloj kaj de uzantoj sen teknika fono.
Kun ĉi tiu nova generacio, Meta fokusiĝas al plibonigi objektodetekton kaj segmentadon kaj alportante la tridimensia rekonstruo al multe pli vasta publikoDe videoredaktado ĝis produkta bildigo por e-komerco en Hispanio kaj la resto de Eŭropo, la kompanio antaŭvidas scenaron en kiu Simple priskribi per vortoj kion vi volas fari sufiĉas por ke AI faru la plejparton de la peza laboro..
Kion ofertas SAM 3 kompare kun antaŭaj versioj?
SAM 3 estas poziciigita kiel la rekta evoluo de la segmentaj modeloj, kiujn Meta prezentis en 2023 kaj 2024, konataj kiel SAM 1 kaj SAM 2. Tiuj fruaj versioj fokusiĝis al identigado, kiuj pikseloj apartenis al ĉiu objekto, ĉefe uzante vidajn indikojn kiel punktojn, skatolojn aŭ maskojn, kaj en la kazo de SAM 2, sekvante objektojn tra video preskaŭ en reala tempo.
La ĉefa nova evoluo nun estas, ke SAM 3 komprenas riĉaj kaj precizaj tekstaj promptojne nur ĝeneralaj etikedoj. Dum antaŭe simplaj terminoj kiel "aŭto" aŭ "buso" estis uzataj, la nova modelo kapablas respondi al multe pli specifaj priskriboj, ekzemple "flava lerneja buso" aŭ "ruĝa aŭto duoble parkita".
En praktiko, tio signifas, ke sufiĉas skribi ion similan al "ruĝa basbala ĉapo" por ke la sistemo povu trovi kaj apartigi ĉiujn elementojn, kiuj konvenas al tiu priskribo en bildo aŭ filmeto. Ĉi tiu kapablo rafini per vortoj estas aparte utila en profesiaj redaktaj kuntekstoj, reklamado aŭ enhava analizo, kie oni ofte devas rigardi tre specifajn detalojn.
Krome, SAM 3 estis desegnita por integriĝi kun grandaj multimodalaj lingvomodelojTio permesas al vi iri preter simplaj frazoj kaj uzi kompleksajn instrukciojn kiel ekzemple: "Homoj sidantaj sed ne portantaj ruĝan ĉapon" aŭ “piedirantoj, kiuj rigardas la fotilon sed sen dorsosako.” Ĉi tiu speco de instrukcio kombinas kondiĉojn kaj ekskludojn, kiujn ĝis antaŭ nelonge estis malfacile traduki en komputilan vidan ilon.
Elfaro kaj skalo de la SAM 3 modelo

Meta ankaŭ volis reliefigi la malpli videblan sed gravan parton: la teknika efikeco kaj scioskalo de la modelo. Laŭ la datumoj de la kompanio, SAM 3 kapablas prilabori unuopan bildon kun pli ol cent detektitaj objektoj en ĉirkaŭ 30 milisekundoj uzante H200 GPU-on, rapideco tre proksima al tio, kio necesas por postulemaj laborfluoj.
En la kazo de la filmeto, la firmao certigas, ke la sistemo konservas sian rendimenton preskaŭ en reala tempo kiam oni laboras kun ĉirkaŭ kvin samtempaj objektoj, igante ĝin farebla por spurado kaj segmentado de moviĝanta enhavo, de mallongaj sociaj amaskomunikilaj filmetoj ĝis pli ambiciaj produktadprojektoj.
Por atingi ĉi tiun konduton, Meta konstruis trejnan bazon kun pli ol 4 milionoj da unikaj konceptojKombinante homajn komentariistojn kun artefarita inteligenteco-modelojn por helpi etikedi grandajn volumojn de datumoj, ĉi tiu miksaĵo de mana kaj aŭtomatigita kontrolado celas balanci precizecon kaj skalon — ŝlosilon por certigi, ke la modelo bone respondas al diversaj enigaĵoj en eŭropaj, latinamerikaj kaj aliaj merkataj kuntekstoj.
La kompanio enkadrigas SAM 3 ene de tio, kion ĝi nomas Segmentu Io ajn KolektonFamilio de modeloj, komparnormoj kaj rimedoj desegnitaj por plivastigi la vidan komprenon de artefarita inteligenteco. La lanĉon akompanas nova komparnormo por segmentado de "malferma vortprovizo", kiu celas mezuri la amplekson, en kiu la sistemo povas kompreni preskaŭ ajnan koncepton esprimitan en natura lingvo.
Integriĝo kun Redaktoj, Vibroj, kaj aliaj Meta-iloj

Preter la teknika komponanto, Meta jam komencis integri SAM 3 en specifajn produktojn kiuj estas destinitaj por ĉiutaga uzo. Unu el la unuaj cellokoj estos Redaktoj, ilia aplikaĵo por krei kaj redakti filmetojn, kie la ideo estas, ke la uzanto povas elekti specifajn homojn aŭ objektojn per simpla teksta priskribo kaj apliki efikojn, filtrilojn aŭ ŝanĝojn nur al tiuj partoj de la filmaĵo.
Alia vojo por integriĝo troviĝos en Viboj, ene de la Meta AI-aplikaĵo kaj la meta.ai-platformoEn ĉi tiu medio, teksta segmentado estos kombinita kun generaj iloj por krei novajn redaktajn kaj kreivajn spertojn, kiel ekzemple kutimajn fonojn, movajn efektojn aŭ selektemajn fotomodifojn desegnitajn por sociaj retoj, kiuj estas tre popularaj en Hispanio kaj la resto de Eŭropo.
La propono de la kompanio estas, ke ĉi tiuj kapabloj ne limiĝu al profesiaj studoj, sed atingu... sendependaj kreintoj, malgrandaj agentejoj kaj progresintaj uzantoj kiuj laboras ĉiutage kun vida enhavo. La kapablo segmenti scenojn per skribado de priskriboj en natura lingvo reduktas la lernadokurbon kompare kun tradiciaj iloj bazitaj sur manaj maskoj kaj tavoloj.
Samtempe, Meta konservas malferman aliron al eksteraj programistoj, sugestante ke triapartaj aplikaĵoj -de redaktaj iloj ĝis solvoj por videanalitiko en podetala komerco aŭ sekureco- povas fidi je SAM 3 kondiĉe ke la uzpolitikoj de la kompanio estas respektataj.
SAM 3D: Tridimensia rekonstruo el ununura bildo

La alia granda novaĵo estas SAM 3Dsistemo desegnita por plenumi tridimensiaj rekonstruoj komencante de 2D bildoj. Anstataŭ bezoni plurajn kaptojn el malsamaj anguloj, la modelo celas generi fidindan 3D reprezentaĵon el ununura foto, io aparte interesa por tiuj, kiuj ne havas specialigitan skanan ekipaĵon aŭ laborfluojn.
SAM 3D konsistas el du malfermfontaj modeloj kun apartaj funkcioj: SAM 3D-Objektojfokusiĝis al rekonstruado de objektoj kaj scenoj, kaj SAM 3D Korpo, celita taksi homan formon kaj korpon. Ĉi tiu apartigo permesas adapti la sistemon al tre malsamaj uzkazoj, de produktaj katalogoj ĝis sanaj aŭ sportaj aplikoj.
Laŭ Meta, SAM 3D Objects markas Nova rendimenta komparnormo en AI-gvidita 3D rekonstruofacile superante antaŭajn metodojn en ŝlosilaj kvalitmezuriloj. Por pli rigore taksi la rezultojn, la kompanio kunlaboris kun artistoj por krei SAM 3D Artist Objects, datumbazon speciale desegnitan por taksi la fidelecon kaj detalojn de rekonstruoj trans vasta gamo da bildoj kaj objektoj.
Ĉi tiu antaŭeniro malfermas la pordon al praktikaj aplikoj en kampoj kiel ekzemple robotiko, scienco, sportmedicino, aŭ cifereca kreivoEkzemple, en robotiko ĝi povas helpi sistemojn pli bone kompreni la volumenon de la objektoj, kun kiuj ili interagas; en medicina aŭ sporta esplorado, ĝi povus helpi analizi korpoposturon kaj movadon; kaj en kreiva dezajno, ĝi servas kiel bazo por generado de 3D-modeloj por animacio, videoludoj aŭ mergaj spertoj.
Unu el la unuaj komercaj aplikoj jam videblaj estas la funkcio "Vido en Ĉambro" de Facebook-Foirejokiu permesas al vi bildigi kiel meblo aŭ ornamaĵo aspektus en reala ĉambro antaŭ ol aĉeti ĝin. Kun SAM 3D, Meta celas perfektigi ĉi tiajn spertojn, tre grava por eŭropa e-komerco, kie redoni produktojn pro neplenumitaj atendoj reprezentas kreskantan koston.
Segmentu Io ajn Ludejon: medio por eksperimentado

Por permesi al la publiko testi ĉi tiujn kapablojn sen instali ion ajn, Meta ebligis la Segmento Io ajn LudejoĜi estas TTT-platformo, kiu permesas al vi alŝuti bildojn aŭ filmetojn kaj eksperimenti kun SAM 3 kaj SAM 3D rekte el via retumilo. La ideo estas, ke ĉiu, kiu scivolas pri vida artefarita inteligenteco, povas esplori tion, kio eblas sen ia programa scio.
En la kazo de SAM 3, la Ludejo permesas segmenti objektojn uzante mallongaj frazoj aŭ detalaj instrukciojKombinante tekston kaj, se dezirite, vidajn ekzemplojn. Tio simpligas oftajn taskojn kiel elekti homojn, aŭtojn, bestojn aŭ specifajn elementojn de la sceno kaj apliki specifajn agojn al ili, de estetikaj efikoj ĝis malklarigo aŭ anstataŭigo de fono.
Kiam oni laboras kun SAM 3D, la platformo ebligas Esploru scenojn el novaj perspektivojrearanĝi objektojn, apliki tridimensiajn efikojn aŭ generi alternativajn vidojn. Por tiuj, kiuj laboras pri dezajno, reklamado aŭ 3D-enhavo, ĝi ofertas rapidan manieron prototipi ideojn sen devi uzi kompleksajn teknikajn ilojn dekomence.
La Ludejo ankaŭ inkluzivas serion de Pretaj ŝablonoj Ĉi tiuj funkcioj celas tre specifajn taskojn. Ili inkluzivas praktikajn eblojn kiel pikseligi vizaĝojn aŭ numerplatojn pro privatecaj kialoj, kaj vidajn efikojn kiel movo-spurojn, selektemajn reliefojn aŭ spotlumojn sur interesaj areoj en la video. Ĉi tiuj specoj de funkcioj povas esti aparte taŭgaj por la laborfluoj de ciferecaj amaskomunikiloj kaj kreintoj de enhavo en Hispanio, kie la produktado de mallongaj filmetoj kaj socia amaskomunikila enhavo estas konstanta.
Malfermaj rimedoj por programistoj kaj esploristoj

Konforme al la strategio, kiun Meta sekvis en aliaj eldonoj de AI, la kompanio decidis publikigi signifan parton de la teknikaj rimedoj asociitaj kun SAM 3 kaj SAM 3DPor la unua, la modelpezoj, nova komparnormo centrita sur malferma vortproviza segmentado, kaj teknika dokumento detaliganta ĝian disvolviĝon estis publikigitaj.
En la kazo de SAM 3D, la jenaj estas haveblaj: modelaj kontrolpunktoj, inferenca kodo, kaj taksada datumbazo sekva generacio. Ĉi tiu datumbazo inkluzivas konsiderindan varion de bildoj kaj objektoj, kiuj celas iri preter tradiciaj 3D-referencaj punktoj, provizante pli grandan realismon kaj kompleksecon, ion kio povas esti tre utila por eŭropaj esplorgrupoj laborantaj pri komputila vidado kaj grafikoj.
Meta ankaŭ anoncis kunlaborojn kun komentaj platformoj kiel Roboflow, kun la celo ebligi al programistoj kaj kompanioj Enigu viajn proprajn datumojn kaj ĝustigu SAM 3 al specifaj bezonoj. Tio malfermas la pordon al sektor-specifaj solvoj, de industria inspektado ĝis urba trafikanalizo, inkluzive de kultura heredaĵprojektoj kie gravas precize segmenti arkitekturajn aŭ artajn elementojn.
Elektante relative malferman aliron, la kompanio celas certigi, ke la programista ekosistemo, universitatoj kaj noventreprenoj -inkluzive de tiuj, kiuj funkcias en Hispanio kaj la resto de Eŭropo- povas eksperimenti kun ĉi tiuj teknologioj, integri ilin en siajn proprajn produktojn kaj, finfine, kontribui uzkazojn, kiuj iras preter tiujn, kiujn Meta povas disvolvi interne.
Kun SAM 3 kaj SAM 3D, Meta celas plifirmigi pli fleksebla kaj alirebla vida AI-platformokie tekst-gvidita segmentado kaj 3D-rekonstruo el ununura bildo jam ne estas kapabloj rezervitaj por tre specialigitaj teamoj. La ebla efiko etendiĝas de ĉiutaga videoredaktado ĝis progresintaj aplikoj en scienco, industrio kaj e-komerco, en kunteksto kie la kombinaĵo de lingvo, komputila vidado kaj kreivo fariĝas norma laborilo kaj ne nur teknologia promeso.
Mi estas teknologientuziasmulo, kiu transformis siajn "geek" interesojn en profesion. Mi pasigis pli ol 10 jarojn de mia vivo uzante avangardan teknologion kaj tuŝante ĉiajn programojn pro pura scivolemo. Nun mi specialiĝis pri komputila teknologio kaj videoludoj. Ĉi tio estas ĉar de pli ol 5 jaroj mi verkas por diversaj retejoj pri teknologio kaj videoludoj, kreante artikolojn, kiuj celas doni al vi la informojn, kiujn vi bezonas en lingvo komprenebla por ĉiuj.
Se vi havas demandojn, mia scio varias de ĉio rilata al la Vindoza operaciumo same kiel Android por poŝtelefonoj. Kaj mia devontigo estas al vi, mi ĉiam pretas pasigi kelkajn minutojn kaj helpi vin solvi ajnajn demandojn, kiujn vi povas havi en ĉi tiu interreta mondo.