Meta SAM 3 un SAM 3D: jaunās paaudzes vizuālais mākslīgais intelekts

SAM 3 ievieš attēlu un video segmentāciju, kuras pamatā ir teksts un vizuāli piemēri, ar miljoniem jēdzienu saturošu vārdu krājumu.
SAM 3D ļauj rekonstruēt objektus, ainas un cilvēka ķermeņus 3D formātā no viena attēla, izmantojot atvērtus modeļus.
Modeļus var testēt bez tehniskām zināšanām Segment Anything Playground platformā, izmantojot praktiskas un radošas veidnes.
Meta izlaiž svarus, kontrolpunktus un jaunus etalonus, lai izstrādātāji un pētnieki Eiropā un pārējā pasaulē varētu integrēt šīs iespējas savos projektos.

Meta ir spērusi vēl vienu soli savā apņemšanās mākslīgā intelekta pielietojums datorredzē ar SAM 3 un SAM 3D laišana klajā, divi modeļi, kas paplašina Segment Anything saimi un ka Viņu mērķis ir mainīt veidu, kā mēs strādājam ar fotoattēliem un video.Uzņēmums nebūt nepaliek tikai par laboratorijas eksperimentu, bet gan vēlas, lai šos rīkus izmantotu gan profesionāļi, gan lietotāji bez tehniskām zināšanām.

Ar šo jauno paaudzi Meta koncentrējas uz uzlabot objektu noteikšanu un segmentāciju un atnesot trīsdimensiju rekonstrukcija daudz plašākai auditorijaiNo video rediģēšanas līdz produktu vizualizācijai e-komercijai Spānijā un pārējā Eiropā uzņēmums iztēlojas scenāriju, kurā Vienkārši aprakstot to, ko vēlaties darīt, vārdos, mākslīgajam intelektam pietiek ar lielāko daļu smagā darba..

Ko piedāvā SAM 3 salīdzinājumā ar iepriekšējām versijām?

SAM 3 ir pozicionēts kā tieša evolūcija no segmentācijas modeļiem, ko Meta prezentēja 2023. un 2024. gadā, kas pazīstami kā SAM 1 un SAM 2. Šīs agrīnās versijas koncentrējās uz to, lai noteiktu, kuri pikseļi pieder katram objektam, galvenokārt izmantojot vizuālas norādes, piemēram, punktus, lodziņus vai maskas, un SAM 2 gadījumā sekojot objektiem visā video gandrīz reāllaikā.

Galvenais jaunums tagad ir tas, ka SAM 3 saprot bagātīgas un precīzas teksta uzvednesne tikai vispārīgas etiķetes. Ja iepriekš tika izmantoti vienkārši termini, piemēram, "automašīna" vai "autobuss", jaunais modelis spēj reaģēt uz daudz konkrētākiem aprakstiem, piemēram, "dzeltens skolas autobuss" vai "sarkana automašīna novietota divreiz".

Praksē tas nozīmē, ka pietiek uzrakstīt kaut ko līdzīgu "Sarkanā beisbola cepure" lai sistēma varētu attēlā vai videoklipā atrast un atdalīt visus elementus, kas atbilst šim aprakstam. Šī spēja precizēt ar vārdiem ir īpaši noderīga, profesionālas rediģēšanas konteksti, reklāma vai satura analīze, kur bieži vien ir jāaplūko ļoti specifiskas detaļas.

Turklāt SAM 3 ir izstrādāts tā, lai integrētos ar lieli multimodāli valodu modeļiTas ļauj jums pārsniegt vienkāršas frāzes un izmantot sarežģītas instrukcijas, piemēram: “Cilvēki sēž, bet nevalkā sarkanu cepuri” vai “gājēji, kas skatās kamerā, bet bez mugursomas”. Šāda veida norādījumi apvieno nosacījumus un izņēmumus, kurus līdz nesenam laikam bija grūti interpretēt datorredzes rīkā.

Ekskluzīvs saturs — noklikšķiniet šeit Bezpilota narkozemūdene ar Starlink tehnoloģiju: atklājums, kas izaicina Kolumbijas Jūras spēkus

SAM 3 modeļa veiktspēja un mērogs

SAM 3 meta modelis

Meta arī vēlējās izcelt mazāk redzamo, bet būtisko daļu: tehniskā veiktspēja un zināšanu skala modeļa. Saskaņā ar uzņēmuma datiem, SAM 3 spēj apstrādāt vienu attēlu ar vairāk nekā simts atklātiem objektiem aptuveni 30 milisekundēs, izmantojot H200 GPU, kas ir ļoti tuvs ātrums tam, kas nepieciešams prasīgām darbplūsmām.

Video gadījumā uzņēmums apliecina, ka sistēma saglabā veiktspēju praktiski reāllaikā strādājot ar aptuveni pieciem vienlaicīgiem objektiem, padarot to piemērotu kustīga satura izsekošanai un segmentēšanai, sākot no īsiem sociālo mediju klipiem līdz pat vērienīgākiem ražošanas projektiem.

Lai sasniegtu šo uzvedību, Meta ir izveidojusi apmācību bāzi ar vairāk nekā 4 miljoni unikālu koncepcijuApvienojot cilvēku anotētājus ar mākslīgā intelekta modeļiem, lai palīdzētu marķēt lielus datu apjomus, šī manuālās un automatizētās uzraudzības kombinācija ir paredzēta, lai līdzsvarotu precizitāti un mērogu, kas ir galvenais, lai nodrošinātu, ka modelis labi reaģē uz dažādiem ievades datiem Eiropas, Latīņamerikas un citos tirgus kontekstos.

Uzņēmums SAM 3 ietver tā saukto Segmentēt jebko kolekcijuModeļu, etalonu un resursu saime, kas izstrādāta, lai paplašinātu mākslīgā intelekta vizuālo izpratni. Līdz ar palaišanu tiek ieviests jauns "atvērtās vārdnīcas" segmentācijas etalons, kas koncentrējas uz to, cik lielā mērā sistēma spēj saprast gandrīz jebkuru dabiskajā valodā izteiktu jēdzienu.

Integrācija ar rediģēšanas, vibrāciju un citiem Meta rīkiem

Rediģējiet 4K video, izmantojot Meta Edits

Papildus tehniskajam komponentam Meta jau ir sākusi integrēt SAM 3 konkrētos produktos kas paredzēti ikdienas lietošanai. Viens no pirmajiem galamērķiem būs Rediģējumi, viņu video veidošanas un rediģēšanas lietojumprogramma, kuras ideja ir tāda, ka lietotājs var atlasīt konkrētas personas vai objektus ar vienkāršu teksta aprakstu un piemērot efektus, filtrus vai izmaiņas tikai šīm videomateriāla daļām.

Vēl viens integrācijas ceļš tiks atrasts Vibes, Meta AI lietotnē un meta.ai platformāŠajā vidē teksta segmentācija tiks apvienota ar ģeneratīvajiem rīkiem, lai radītu jaunas rediģēšanas un radošās pieredzes, piemēram, pielāgotus fonus, kustības efektus vai selektīvas fotoattēlu modifikācijas, kas paredzētas sociālajiem tīkliem, kuri ir ļoti populāri Spānijā un pārējā Eiropā.

Uzņēmuma priekšlikums ir, lai šīs iespējas neaprobežotos tikai ar profesionālajām studijām, bet gan sasniegtu... neatkarīgiem veidotājiem, mazām aģentūrām un pieredzējušiem lietotājiem kuri ikdienā strādā ar vizuālu saturu. Spēja segmentēt ainas, rakstot aprakstus dabiskā valodā, samazina apguves līkni salīdzinājumā ar tradicionālajiem rīkiem, kuru pamatā ir manuālas maskas un slāņi.

Vienlaikus Meta saglabā atvērtu pieeju ārējiem izstrādātājiem, kas liecina, ka trešo pušu lietojumprogrammas — sākot ar rediģēšanas rīkiem un beidzot ar video analītikas risinājumiem mazumtirdzniecībā vai drošības jomā — var paļauties uz SAM 3, ja vien tiek ievērotas uzņēmuma lietošanas politikas.

Ekskluzīvs saturs — noklikšķiniet šeit Pārveidojiet cilvēkus un objektus 3D formātā ar Meta SAM 3 un SAM 3D

SAM 3D: Trīsdimensiju rekonstrukcija no viena attēla

Kā darbojas SAM 3D

Otra lielā ziņa ir SAM 3Dsistēma, kas paredzēta, lai veiktu trīsdimensiju rekonstrukcijas sākot ar 2D attēliem. Tā vietā, lai būtu nepieciešami vairāki uzņēmumi no dažādiem leņķiem, modeļa mērķis ir ģenerēt uzticamu 3D attēlojumu no viena fotoattēla, kas ir īpaši interesanti tiem, kam nav specializēta skenēšanas aprīkojuma vai darbplūsmu.

SAM 3D sastāv no diviem atvērtā koda modeļiem ar atšķirīgām funkcijām: SAM 3D objektikoncentrējoties uz objektu un ainu rekonstrukciju, un SAM 3D korpuss, kas paredzēta cilvēka formas un ķermeņa novērtēšanai. Šī atdalīšana ļauj sistēmu pielāgot ļoti dažādiem lietošanas gadījumiem, sākot no produktu katalogiem līdz veselības vai sporta lietojumprogrammām.

Saskaņā ar Meta datiem, SAM 3D objekti iezīmē a Jauns veiktspējas etalons mākslīgā intelekta vadītā 3D rekonstrukcijāviegli pārspējot iepriekšējās metodes galvenajos kvalitātes rādītājos. Lai rūpīgāk novērtētu rezultātus, uzņēmums ir sadarbojies ar māksliniekiem, lai izveidotu SAM 3D Artist Objects — datu kopu, kas īpaši izstrādāta, lai novērtētu rekonstrukciju precizitāti un detaļas plašā attēlu un objektu klāstā.

Šis sasniegums paver durvis praktiskiem pielietojumiem tādās jomās kā robotika, zinātne, sporta medicīna vai digitālā radošumsPiemēram, robotikā tas var palīdzēt sistēmām labāk izprast objektu apjomu, ar kuriem tās mijiedarbojas; medicīnas vai sporta pētījumos tas varētu palīdzēt analizēt ķermeņa stāju un kustības; un radošajā dizainā tas kalpo par pamatu 3D modeļu ģenerēšanai animācijai, videospēlēm vai ieskaujošām pieredzēm.

Viens no pirmajiem jau redzamajiem komerciālajiem lietojumiem ir funkcija “Skats numurā” de Facebook tirguskas ļauj vizualizēt, kā mēbele vai dekoratīvs priekšmets izskatītos reālā telpā pirms tā iegādes. Ar SAM 3D, Meta cenšas pilnveidot šāda veida pieredzi., kas ir ļoti svarīgi Eiropas e-komercijai, kur produktu atgriešana neapmierinātu cerību dēļ rada arvien lielākas izmaksas.

Kā pārvērst cilvēkus un objektus 3D modeļos, izmantojot SAM 3D

Saistīts raksts:

Pārveidojiet cilvēkus un objektus 3D formātā ar Meta SAM 3 un SAM 3D

Segment Anything Playground: vide eksperimentiem

Segmentēt jebko rotaļu laukumā

Lai ļautu sabiedrībai pārbaudīt šīs iespējas, neko neinstalējot, Meta ir iespējojis Segmentēt jebko rotaļu laukumāTā ir tīmekļa platforma, kas ļauj augšupielādēt attēlus vai videoklipus un eksperimentēt ar SAM 3 un SAM 3D tieši no pārlūkprogrammas. Ideja ir tāda, ka ikviens, kuru interesē vizuālais mākslīgais intelekts, var izpētīt iespējas bez jebkādām programmēšanas zināšanām.

SAM 3 gadījumā rotaļu laukums ļauj segmentēt objektus, izmantojot īsas frāzes vai detalizētas instrukcijasApvienojot tekstu un, ja nepieciešams, vizuālus piemērus. Tas vienkāršo bieži veicamus uzdevumus, piemēram, cilvēku, automašīnu, dzīvnieku vai konkrētu ainas elementu atlasi un noteiktu darbību veikšanu, sākot no estētiskiem efektiem līdz fona izpludināšanai vai aizstāšanai.

Ekskluzīvs saturs — noklikšķiniet šeit Google attēli: jaunas funkcijas lietotnēs Fotoattēli, Gemini un lēciens uz Nano Banana 2

Strādājot ar SAM 3D, platforma to ļauj Izpētiet ainas no jaunām perspektīvāmpārkārtot objektus, pielietot trīsdimensiju efektus vai ģenerēt alternatīvus skatus. Tiem, kas strādā dizaina, reklāmas vai 3D satura jomā, tas piedāvā ātru veidu, kā izveidot ideju prototipus, neizmantojot sarežģītus tehniskos rīkus jau no paša sākuma.

Rotaļu laukumā ir iekļauta arī virkne Gatavas lietošanai veidnes Šīs funkcijas ir paredzētas ļoti specifiskiem uzdevumiem. Tās ietver praktiskas iespējas, piemēram, seju vai numura zīmju pikselēšanu privātuma apsvērumu dēļ, kā arī vizuālos efektus, piemēram, kustību pēdas, selektīvus izcēlumus vai prožektorus interesējošās video zonās. Šāda veida funkcijas var būt īpaši piemērotas digitālo mediju un satura veidotāju darbplūsmām Spānijā, kur īsu video un sociālo mediju satura veidošana ir pastāvīga.

Atvērtie resursi izstrādātājiem un pētniekiem

SAM 3D meta piemēri

Saskaņā ar stratēģiju, ko Meta ir izmantojusi citos mākslīgā intelekta izlaidumos, uzņēmums ir nolēmis izlaist ievērojamu daļu no ar SAM 3 un SAM 3D saistītie tehniskie resursiPirmajam ir publiskoti modeļa svari, jauns kritērijs, kas vērsts uz atvērto vārdu krājuma segmentāciju, un tehniskais dokuments, kurā sīki aprakstīta tā izstrāde.

SAM 3D gadījumā ir pieejamas šādas iespējas: modeļa kontrolpunkti, secinājumu kods un novērtēšanas datu kopa nākamā paaudze. Šajā datu kopā ir iekļauts ievērojams attēlu un objektu klāsts, kas tiecas pārsniegt tradicionālos 3D atskaites punktus, nodrošinot lielāku reālismu un sarežģītību, kas var būt ļoti noderīgi Eiropas pētniecības grupām, kas strādā datorredzes un grafikas jomā.

Meta ir arī paziņojusi par sadarbību ar anotāciju platformām, piemēram, Roboflow, ar mērķi dot iespēju izstrādātājiem un uzņēmumiem Ievadiet savus datus un pielāgojiet SAM 3 specifiskām vajadzībām. Tas paver durvis uz nozarei specifiskiem risinājumiem, sākot no rūpnieciskās pārbaudes līdz pilsētas satiksmes analīzei, tostarp kultūras mantojuma projektiem, kuros ir svarīgi precīzi segmentēt arhitektūras vai mākslas elementus.

Izvēloties relatīvi atvērtu pieeju, uzņēmums cenšas nodrošināt, lai izstrādātāju ekosistēma, universitātes un jaunuzņēmumi — tostarp tie, kas darbojas Spānijā un pārējā Eiropā, — var eksperimentēt ar šīm tehnoloģijām, integrēt tās savos produktos un galu galā sniegt lietošanas gadījumus, kas pārsniedz tos, ko Meta var izstrādāt iekšēji.

Ar SAM 3 un SAM 3D Meta mērķis ir konsolidēt elastīgāka un pieejamāka vizuālā mākslīgā intelekta platformakur teksta vadīta segmentācija un 3D rekonstrukcija no viena attēla vairs nav tikai augsti specializētu komandu iespējas. Potenciālā ietekme sniedzas no ikdienas video rediģēšanas līdz progresīvām lietojumprogrammām zinātnē, rūpniecībā un e-komercijā, kontekstā, kur valodas, datorredzes un radošuma kombinācija kļūst par standarta darba rīku, nevis tikai tehnoloģisku solījumu.

Alberto Navarro

Esmu tehnoloģiju entuziasts, kurš savas "geek" intereses ir pārvērtis profesijā. Es esmu pavadījis vairāk nekā 10 gadus no savas dzīves, izmantojot jaunākās tehnoloģijas un tīri ziņkārības vadīts ar visu veidu programmām. Tagad esmu specializējies datortehnoloģijās un videospēlēs. Tas ir tāpēc, ka vairāk nekā 5 gadus esmu rakstījis dažādām tīmekļa vietnēm par tehnoloģijām un videospēlēm, veidojot rakstus, kuru mērķis ir sniegt jums nepieciešamo informāciju ikvienam saprotamā valodā.

Ja jums ir kādi jautājumi, manas zināšanas svārstās no visa, kas saistīts ar Windows operētājsistēmu, kā arī Android mobilajiem tālruņiem. Un mana apņemšanās ir jums, es vienmēr esmu gatavs veltīt dažas minūtes un palīdzēt jums atrisināt visus jautājumus, kas jums varētu rasties šajā interneta pasaulē.