Meta predstavlja SAM 3 in SAM 3D: novo generacijo vizualne umetne inteligence

Zadnja posodobitev: 01.02.2024

  • SAM 3 uvaja segmentacijo slik in videoposnetkov, ki jo vodijo besedilni in vizualni primeri, z besediščem milijonov konceptov.
  • SAM 3D vam omogoča rekonstrukcijo predmetov, prizorov in človeških teles v 3D iz ene same slike z uporabo odprtih modelov.
  • Modele je mogoče preizkusiti brez tehničnega znanja v Segment Anything Playground s praktičnimi in ustvarjalnimi predlogami.
  • Meta objavlja uteži, kontrolne točke in nova merila uspešnosti, da lahko razvijalci in raziskovalci v Evropi in preostalem svetu te zmogljivosti vključijo v svoje projekte.
SAM 3D

Meta je naredila še en korak v svoji zavezi umetna inteligenca, uporabljena v računalniškem vidu z Izid iger SAM 3 in SAM 3D, dva modela, ki širita družino Segment Anything in ki Njihov cilj je spremeniti način dela s fotografijami in videoposnetkiPodjetje še zdaleč ne želi ostati le laboratorijski poskus, temveč želi, da bi ta orodja uporabljali tako strokovnjaki kot uporabniki brez tehničnega znanja.

S to novo generacijo se Meta osredotoča na izboljšati zaznavanje in segmentacijo objektov in pri prinašanju tridimenzionalna rekonstrukcija veliko širšemu občinstvuOd montaže videoposnetkov do vizualizacije izdelkov za e-trgovino v Španiji in preostali Evropi si podjetje predstavlja scenarij, v katerem Preprost opis tega, kar želite storiti, je dovolj, da umetna inteligenca opravi večino težkega dela..

Kaj ponuja SAM 3 v primerjavi s prejšnjimi različicami?

SAM 3 je pozicioniran kot neposredna evolucija modelov segmentacije, ki jih je Meta predstavila v letih 2023 in 2024, znanih kot SAM 1 in SAM 2. Te zgodnje različice so se osredotočale na prepoznavanje, kateri slikovni elementi pripadajo posameznemu objektu, predvsem z uporabo vizualnih znakov, kot so pike, okvirji ali maske, v primeru SAM 2 pa na sledenje objektom skozi celoten videoposnetek skoraj v realnem času.

Ključna novost je, da SAM 3 razume bogata in natančna besedilna navodilane le splošnih oznak. Medtem ko so se prej uporabljali preprosti izrazi, kot sta »avto« ali »avtobus«, se novi model lahko odzove na veliko bolj specifične opise, na primer »rumen šolski avtobus« ali »rdeč avto parkiran v dvojni vrsti«.

V praksi to pomeni, da je dovolj napisati nekaj takega kot "Rdeča baseball kapa" tako da lahko sistem najde in loči vse elemente, ki ustrezajo opisu na sliki ali v videoposnetku. Ta sposobnost natančnejšega opisa z besedami je še posebej uporabna pri profesionalni uredniški konteksti, oglaševanje ali analiza vsebin, kjer morate pogosto pogledati zelo specifične podrobnosti.

Poleg tega je bil SAM 3 zasnovan za integracijo z veliki multimodalni jezikovni modeliTo vam omogoča, da greste dlje od preprostih fraz in uporabite kompleksna navodila, kot so: "Ljudje sedijo, a ne nosijo rdeče kape" ali »pešci, ki gledajo v kamero, vendar brez nahrbtnika«. Ta vrsta navodil združuje pogoje in izključitve, ki jih je bilo do nedavnega težko prevesti v orodje za računalniški vid.

Ekskluzivna vsebina - Kliknite tukaj  Kako uporabljati Aria AI v Operi GX: Celoten vodnik

Zmogljivost in obseg modela SAM 3

Meta model SAM 3

Meta je želela poudariti tudi manj viden, a ključni del: lestvica tehnične uspešnosti in znanja modela. Po podatkih podjetja je SAM 3 zmožen obdelati eno sliko z več kot sto zaznanimi predmeti v približno 30 milisekundah z uporabo grafičnega procesorja H200, kar je hitrost zelo blizu tisti, ki je potrebna za zahtevne delovne procese.

V primeru videoposnetka podjetje zagotavlja, da sistem ohranja delovanje praktično v realnem času pri delu s približno petimi hkratnimi objekti, kar omogoča sledenje in segmentacijo gibljivih vsebin, od kratkih posnetkov družbenih medijev do bolj ambicioznih produkcijskih projektov.

Da bi dosegli to vedenje, je Meta zgradila vadbeno bazo z več kot 4 milijone edinstvenih konceptovTa mešanica ročnega in avtomatiziranega nadzora, ki združuje človeške komentatorje z modeli umetne inteligence za označevanje velikih količin podatkov, si prizadeva uravnotežiti natančnost in obseg – kar je ključnega pomena za zagotovitev, da se model dobro odziva na različne vnose v evropskih, latinskoameriških in drugih tržnih kontekstih.

Podjetje uokvirja SAM 3 v tako imenovani Zbirka Segment AnythingDružina modelov, primerjalnih testov in virov, zasnovanih za razširitev vizualnega razumevanja umetne inteligence. Izid spremlja nov referenčni test za segmentacijo »odprtega besedišča«, osredotočen na merjenje obsega, v katerem lahko sistem razume skoraj vsak koncept, izražen v naravnem jeziku.

Integracija z Edits, Vibes in drugimi Meta orodji

Urejanje videoposnetkov v ločljivosti 4K z Meta Edits

Poleg tehnične komponente je Meta že začela integrirajte SAM 3 v specifične izdelke ki so namenjeni vsakodnevni uporabi. Ena prvih destinacij bodo urejanja., njihova aplikacija za ustvarjanje in urejanje videoposnetkov, kjer je ideja, da lahko uporabnik s preprostim besedilnim opisom izbere določene osebe ali predmete in uporabi učinke, filtre ali spremembe samo na te dele posnetka.

Druga pot za integracijo bo v Vibes, znotraj aplikacije Meta AI in platforme meta.aiV tem okolju bo segmentacija besedila združena z generativnimi orodji za ustvarjanje novih izkušenj urejanja in ustvarjanja, kot so prilagojena ozadja, učinki gibanja ali selektivne modifikacije fotografij, zasnovane za družbena omrežja, ki so zelo priljubljena v Španiji in preostali Evropi.

Predlog podjetja je, da te zmogljivosti ne bi bile omejene na strokovni študij, temveč bi dosegle ... neodvisni ustvarjalci, majhne agencije in napredni uporabniki ki vsakodnevno delajo z vizualnimi vsebinami. Zmožnost segmentacije prizorov s pisanjem opisov v naravnem jeziku skrajša krivuljo učenja v primerjavi s tradicionalnimi orodji, ki temeljijo na ročnih maskah in slojih.

Hkrati Meta ohranja odprt pristop do zunanjih razvijalcev, kar kaže na to, da aplikacije tretjih oseb – od orodij za urejanje do rešitev za video analitiko v trgovini na drobno ali varnosti – se lahko zanesejo na SAM 3, če spoštujejo pravilnike uporabe podjetja.

Ekskluzivna vsebina - Kliknite tukaj  Google aktivira način umetne inteligence v Španiji: kako deluje in kako ga uporabljati

SAM 3D: Tridimenzionalna rekonstrukcija iz ene same slike

Kako deluje SAM 3D

Druga velika novica je SAM 3Dsistem, zasnovan za izvajanje tridimenzionalne rekonstrukcije začenši z 2D-slik. Namesto da bi potrebovali več posnetkov iz različnih kotov, si model prizadeva ustvariti zanesljivo 3D-predstavitev iz ene same fotografije, kar je še posebej zanimivo za tiste, ki nimajo specializirane opreme za skeniranje ali delovnih procesov.

SAM 3D je sestavljen iz dveh odprtokodnih modelov z različnimi funkcijami: 3D-predmeti SAMosredotočen na rekonstrukcijo predmetov in prizorov ter SAM 3D telo, usmerjen v ocenjevanje človeške oblike in telesa. Ta ločitev omogoča prilagoditev sistema zelo različnim primerom uporabe, od katalogov izdelkov do zdravstvenih ali športnih aplikacij.

Po podatkih Mete, SAM 3D Objects označuje Novo merilo zmogljivosti pri 3D-rekonstrukciji z umetno inteligencoz lahkoto presega prejšnje metode v ključnih kazalnikih kakovosti. Za natančnejšo oceno rezultatov je podjetje sodelovalo z umetniki pri ustvarjanju SAM 3D Artist Objects, nabora podatkov, posebej zasnovanega za ocenjevanje natančnosti in podrobnosti rekonstrukcij na najrazličnejših slikah in predmetih.

Ta napredek odpira vrata praktičnim aplikacijam na področjih, kot so robotika, znanost, športna medicina ali digitalna ustvarjalnostNa primer, v robotiki lahko pomaga sistemom bolje razumeti prostornino predmetov, s katerimi komunicirajo; v medicinskih ali športnih raziskavah bi lahko pomagal analizirati držo in gibanje telesa; v kreativnem oblikovanju pa služi kot osnova za ustvarjanje 3D-modelov za animacije, videoigre ali poglobljene izkušnje.

Ena prvih komercialnih aplikacij, ki so že vidne, je funkcija "Razgled v sobi" de Facebookova tržnicakar vam omogoča, da si pred nakupom predstavljate, kako bi kos pohištva ali okrasnega predmeta izgledal v resničnem prostoru. S SAM 3D, Meta si prizadeva izpopolniti tovrstne izkušnje, kar je zelo pomembno za evropsko e-trgovino, kjer vračilo izdelkov zaradi neizpolnjenih pričakovanj predstavlja vse večje stroške.

Kako pretvoriti ljudi in predmete v 3D modele s SAM 3D
Povezani članek:
Pretvorite ljudi in predmete v 3D z Meta SAM 3 in SAM 3D

Igrišče Segment Anything: okolje za eksperimentiranje

Segment Anything Playground

Da bi javnost lahko preizkusila te zmogljivosti brez nameščanja česar koli, je Meta omogočila Segment Anything PlaygroundGre za spletno platformo, ki omogoča nalaganje slik ali videoposnetkov ter eksperimentiranje s SAM 3 in SAM 3D neposredno iz brskalnika. Ideja je, da lahko vsak, ki ga zanima vizualna umetna inteligenca, razišče možnosti brez kakršnega koli znanja programiranja.

V primeru SAM 3, Playground omogoča segmentacijo objektov z uporabo kratki stavki ali podrobna navodilaZdruževanje besedila in po želji vizualnih primerov. To poenostavi običajna opravila, kot so izbiranje ljudi, avtomobilov, živali ali določenih elementov prizora in uporaba določenih dejanj nanje, od estetskih učinkov do zameglitve ali zamenjave ozadja.

Ekskluzivna vsebina - Kliknite tukaj  Kaj je algoritem združevanja na podlagi gostote?

Pri delu s SAM 3D platforma omogoča Raziščite prizore z novih perspektivprerazporedite predmete, uporabite tridimenzionalne učinke ali ustvarite alternativne poglede. Za tiste, ki delajo na področju oblikovanja, oglaševanja ali 3D-vsebin, ponuja hiter način za izdelavo prototipov idej, ne da bi morali že od samega začetka uporabljati zapletena tehnična orodja.

Igrišče vključuje tudi vrsto Predloge, pripravljene za uporabo Te funkcije so namenjene zelo specifičnim nalogam. Vključujejo praktične možnosti, kot je pikselizacija obrazov ali registrskih tablic zaradi zasebnosti, in vizualne učinke, kot so sledi gibanja, selektivni poudarki ali žarometi na zanimivih področjih v videoposnetku. Te vrste funkcij so lahko še posebej primerne za delovne procese ustvarjalcev digitalnih medijev in vsebin v Španiji, kjer je produkcija kratkih videoposnetkov in vsebin za družbene medije stalna.

Odprti viri za razvijalce in raziskovalce

Primeri metapodakov SAM 3D

V skladu s strategijo, ki jo je Meta sledila pri drugih izdajah umetne inteligence, se je podjetje odločilo izdati znaten del tehnični viri, povezani s SAM 3 in SAM 3DZa prvo so bili javno objavljeni uteži modela, novo merilo, osredotočeno na segmentacijo odprtega besedišča, in tehnični dokument s podrobnostmi o njegovem razvoju.

V primeru SAM 3D so na voljo naslednje: kontrolne točke modela, koda sklepanja in nabor podatkov za vrednotenje naslednje generacije. Ta nabor podatkov vključuje precejšnjo raznolikost slik in predmetov, ki si prizadeva preseči tradicionalne 3D-referenčne točke ter zagotoviti večji realizem in kompleksnost, kar je lahko zelo koristno za evropske raziskovalne skupine, ki delajo na področju računalniškega vida in grafike.

Meta je prav tako napovedala sodelovanje s platformami za komentiranje, kot je Roboflow, s ciljem, da razvijalcem in podjetjem omogočijo Vnesite svoje podatke in prilagodite SAM 3 specifičnim potrebam. To odpira vrata sektorsko specifičnim rešitvam, od industrijskih inšpekcij do analiz mestnega prometa, vključno s projekti kulturne dediščine, kjer je pomembno natančno segmentirati arhitekturne ali umetniške elemente.

Z izbiro relativno odprtega pristopa si podjetje prizadeva zagotoviti, da ekosistem razvijalcev, univerze in zagonska podjetja – vključno s tistimi, ki delujejo v Španiji in preostali Evropi – lahko eksperimentirajo s temi tehnologijami, jih integrirajo v lastne izdelke in na koncu prispevajo k primerom uporabe, ki presegajo tiste, ki jih Meta lahko razvije interno.

S programoma SAM 3 in SAM 3D si Meta prizadeva utrditi bolj prilagodljiva in dostopna vizualna platforma umetne inteligencekjer segmentacija z vodenjem besedila in 3D-rekonstrukcija iz ene same slike nista več zmožnosti, rezervirani za visoko specializirane ekipe. Potencialni vpliv sega od vsakodnevnega urejanja videoposnetkov do naprednih aplikacij v znanosti, industriji in e-trgovini, v kontekstu, kjer kombinacija jezika, računalniškega vida in ustvarjalnosti postaja standardno delovno orodje in ne le tehnološka obljuba.