- SAM 3 pristato vaizdų ir vaizdo įrašų segmentavimą, vadovaujamą tekstu ir vaizdiniais pavyzdžiais, naudojant milijonų sąvokų žodyną.
- „SAM 3D“ leidžia rekonstruoti objektus, scenas ir žmonių kūnus 3D formatu iš vieno vaizdo, naudojant atvirus modelius.
- Modelius galima išbandyti neturint techninių žinių „Segment Anything Playground“ platformoje, naudojant praktiškus ir kūrybiškus šablonus.
- „Meta“ išleidžia svorius, kontrolinius taškus ir naujus etalonus, kad kūrėjai ir tyrėjai Europoje ir likusioje pasaulio dalyje galėtų integruoti šias galimybes į savo projektus.
„Meta“ žengė dar vieną žingsnį savo įsipareigojime dirbtinis intelektas, pritaikytas kompiuteriniam regėjimui su SAM 3 ir SAM 3D pristatymas, du modeliai, kurie plečia „Segment Anything“ šeimą ir kurie Jie siekia pakeisti tai, kaip mes dirbame su nuotraukomis ir vaizdo įrašais.Bendrovė toli gražu nelieka laboratoriniu eksperimentu, o nori, kad šiais įrankiais naudotųsi tiek profesionalai, tiek vartotojai be techninių žinių.
Su šia nauja karta „Meta“ daugiausia dėmesio skiria pagerinti objektų aptikimą ir segmentavimą ir atnešdamas trimatė rekonstrukcija daug platesnei auditorijaiNuo vaizdo įrašų redagavimo iki produktų vizualizavimo e. prekybai Ispanijoje ir likusioje Europos dalyje – įmonė įsivaizduoja scenarijų, kuriame Dirbtiniam intelektui pakanka tiesiog žodžiais aprašyti, ką norite daryti, kad atliktų didžiąją dalį sunkaus darbo..
Ką siūlo SAM 3, palyginti su ankstesnėmis versijomis?
SAM 3 pozicionuojamas kaip tiesioginė evoliucija „Meta“ 2023 ir 2024 m. pristatytų segmentavimo modelių, žinomų kaip SAM 1 ir SAM 2, pavyzdžiai. Ankstyvosiose versijose daugiausia dėmesio skirta kiekvienam objektui priklausančių pikselių identifikavimui, daugiausia naudojant vaizdinius ženklus, tokius kaip taškai, langeliai ar kaukės, o SAM 2 atveju – objektų sekimui vaizdo įraše beveik realiuoju laiku.
Svarbiausias naujas pokytis dabar yra tai, kad SAM 3 supranta raiškios ir tikslios tekstinės užklausosne tik bendri apibūdinimai. Anksčiau buvo vartojami paprasti terminai, tokie kaip „automobilis“ ar „autobusas“, o naujasis modelis gali reaguoti į daug konkretesnius aprašymus, pavyzdžiui, „geltonas mokyklinis autobusas“ arba „dvigubai pastatytas raudonas automobilis“.
Praktiškai tai reiškia, kad užtenka parašyti kažką panašaus „Raudona beisbolo kepuraitė“ kad sistema galėtų surasti ir atskirti visus paveikslėlyje ar vaizdo įraše esančius elementus, kurie atitinka tą aprašymą. Ši galimybė patikslinti žodžiais yra ypač naudinga profesionalūs redagavimo kontekstai, reklamos ar turinio analizės, kur dažnai reikia nagrinėti labai konkrečias detales.
Be to, SAM 3 buvo sukurtas taip, kad būtų integruotas su dideli multimodaliniai kalbos modeliaiTai leidžia neapsiriboti paprastomis frazėmis ir naudoti sudėtingas instrukcijas, tokias kaip: „Žmonės sėdi, bet nedėvi raudonų kepurių“ arba „pėstieji, kurie žiūri į kamerą, bet be kuprinės“. Šio tipo instrukcijose derinamos sąlygos ir išimtys, kurias iki šiol buvo sunku pritaikyti kompiuterinio matymo įrankyje.
SAM 3 modelio našumas ir mastas

Meta taip pat norėjo pabrėžti mažiau matomą, bet esminę dalį: techninis našumas ir žinių mastas modelio. Remiantis bendrovės duomenimis, SAM 3, naudodamas H200 GPU, gali apdoroti vieną vaizdą su daugiau nei šimtu aptiktų objektų maždaug per 30 milisekundžių – tai greitis, labai artimas tam, kurio reikia sudėtingiems darbo eigoms.
Vaizdo įrašo atveju įmonė užtikrina, kad sistema išlaikys našumą praktiškai realiu laiku dirbant su maždaug penkiais vienu metu esančiais objektais, todėl tai tinka judančio turinio stebėjimui ir segmentavimui – nuo trumpų socialinės žiniasklaidos klipų iki ambicingesnių gamybos projektų.
Siekdama šio elgesio, „Meta“ sukūrė mokymo bazę su daugiau nei 4 milijonai unikalių koncepcijųŠis rankinės ir automatizuotos priežiūros derinys, kuriame žmonių naudojami komentatoriai derinami su dirbtinio intelekto modeliais, padedančiais žymėti didelius duomenų kiekius, siekia subalansuoti tikslumą ir mastą – tai labai svarbu siekiant užtikrinti, kad modelis gerai reaguotų į įvairius įvesties duomenis Europos, Lotynų Amerikos ir kitų rinkų kontekstuose.
Bendrovė SAM 3 apibrėžia pagal tai, ką ji vadina Segmentuoti bet kokią kolekcijąModelių, etalonų ir išteklių šeima, skirta išplėsti dirbtinio intelekto vizualinį supratimą. Kartu su pristatymu pristatomas naujas „atvirojo žodyno“ segmentavimo etalonas, kurio pagrindinis tikslas – įvertinti, kiek sistema gali suprasti beveik bet kokią natūralia kalba išreikštą sąvoką.
Integracija su „Edits“, „Vibes“ ir kitais „Meta“ įrankiais

Be techninio komponento, „Meta“ jau pradėjo integruoti SAM 3 į konkrečius produktus kurie skirti kasdieniam naudojimui. Viena pirmųjų vietų bus „Edits“, jų vaizdo įrašų kūrimo ir redagavimo programa, kurios idėja yra ta, kad vartotojas gali pasirinkti konkrečius žmones ar objektus su paprastu tekstiniu aprašymu ir pritaikyti efektus, filtrus ar pakeitimus tik toms filmuotos medžiagos dalims.
Kitas integracijos kelias bus rastas „Vibes“ programėlėje „Meta AI“ ir platformoje „meta.ai“Šioje aplinkoje teksto segmentavimas bus derinamas su generatyviniais įrankiais, siekiant sukurti naujas redagavimo ir kūrybines patirtis, tokias kaip pasirinktiniai fonai, judesio efektai arba selektyvios nuotraukų modifikacijos, skirtos socialiniams tinklams, kurie yra labai populiarūs Ispanijoje ir likusioje Europoje.
Įmonės pasiūlymas yra tas, kad šios galimybės neapsiribotų profesinėmis studijomis, o pasiektų... nepriklausomiems kūrėjams, mažoms agentūroms ir pažengusiems vartotojams kurie kasdien dirba su vaizdiniu turiniu. Galimybė segmentuoti scenas rašant aprašymus natūralia kalba sutrumpina mokymosi kreivę, palyginti su tradiciniais įrankiais, pagrįstais rankinėmis kaukėmis ir sluoksniais.
Tuo pačiu metu „Meta“ palaiko atvirą požiūrį į išorinius kūrėjus, teigdama, kad trečiųjų šalių programos – nuo redagavimo įrankių iki vaizdo analizės sprendimų mažmeninėje prekyboje ar saugumo srityje – gali pasikliauti SAM 3 tol, kol laikomasi įmonės naudojimo politikos.
SAM 3D: Trimatis rekonstrukcija iš vieno vaizdo

Kita didelė naujiena yra ta, SAM 3Dsistema, sukurta atlikti trimatės rekonstrukcijos pradedant nuo 2D vaizdų. Užuot reikėję kelių nuotraukų iš skirtingų kampų, modelis siekia sukurti patikimą 3D vaizdą iš vienos nuotraukos, o tai ypač įdomu tiems, kurie neturi specializuotos skenavimo įrangos ar darbo eigų.
SAM 3D sudaro du atvirojo kodo modeliai su skirtingomis funkcijomis: SAM 3D objektaidaugiausia dėmesio skiriant objektų ir scenų rekonstrukcijai ir SAM 3D kūnas, skirta žmogaus formos ir kūno įvertinimui. Šis atskyrimas leidžia sistemą pritaikyti labai skirtingiems naudojimo atvejams – nuo produktų katalogų iki sveikatos ar sporto programų.
Pasak „Meta“, SAM 3D objektai žymi a Naujas našumo etalonas dirbtinio intelekto valdomoje 3D rekonstrukcijojelengvai pranoksta ankstesnius metodus pagal pagrindinius kokybės rodiklius. Siekdama griežčiau įvertinti rezultatus, bendrovė bendradarbiavo su menininkais ir sukūrė „SAM 3D Artist Objects“ – duomenų rinkinį, specialiai sukurtą rekonstrukcijų tikslumui ir detalumui įvertinti įvairiuose vaizduose ir objektuose.
Ši pažanga atveria duris praktiniam pritaikymui tokiose srityse kaip robotika, mokslas, sporto medicina arba skaitmeninis kūrybiškumasPavyzdžiui, robotikoje tai gali padėti sistemoms geriau suprasti objektų, su kuriais jos sąveikauja, tūrį; medicinos ar sporto tyrimuose tai gali padėti analizuoti kūno laikyseną ir judesius; o kūrybiniame dizaine tai tarnauja kaip pagrindas kuriant 3D modelius animacijai, vaizdo žaidimams ar įtraukiančiai patirčiai.
Viena pirmųjų jau matomų komercinių programų yra funkcija „Vaizdas kambaryje“ de „Facebook“ prekyvietėkuri leidžia jums vizualizuoti, kaip baldas ar dekoratyvinis objektas atrodytų realiame kambaryje prieš jį perkant. Su SAM 3D, „Meta“ siekia tobulinti tokio tipo patirtis, labai aktualu Europos e. prekybai, kur prekių grąžinimas dėl nepateisintų lūkesčių reiškia vis didesnes išlaidas.
„Segment Anything Playground“: aplinka eksperimentams

Kad visuomenė galėtų išbandyti šias galimybes nieko neįdiegdama, „Meta“ įjungė Segmentuoti bet ką žaidimų aikštelėjeTai žiniatinklio platforma, leidžianti įkelti vaizdus ar vaizdo įrašus ir eksperimentuoti su SAM 3 ir SAM 3D tiesiai iš naršyklės. Idėja ta, kad kiekvienas, besidomintis vizualiuoju dirbtiniu intelektu, gali tyrinėti, kas įmanoma, neturėdamas jokių programavimo žinių.
SAM 3 atveju „Playground“ leidžia segmentuoti objektus naudojant trumpos frazės arba išsamios instrukcijosTeksto ir, jei pageidaujama, vaizdinių pavyzdžių derinimas. Tai supaprastina įprastas užduotis, tokias kaip žmonių, automobilių, gyvūnų ar konkrečių scenos elementų pasirinkimas ir konkrečių veiksmų taikymas jiems – nuo estetinių efektų iki suliejimo ar fono pakeitimo.
Dirbant su SAM 3D, platforma leidžia Tyrinėkite scenas iš naujų perspektyvųpertvarkyti objektus, taikyti trimačius efektus arba generuoti alternatyvius vaizdus. Tiems, kurie dirba dizaino, reklamos ar 3D turinio srityse, tai siūlo greitą būdą sukurti idėjų prototipus, nuo pat pradžių nenaudojant sudėtingų techninių įrankių.
Žaidimų aikštelėje taip pat yra keletas Paruošti naudoti šablonai Šios funkcijos skirtos labai specifinėms užduotims. Jos apima praktines parinktis, tokias kaip veidų ar numerių pikselizavimas privatumo sumetimais, ir vaizdo efektus, tokius kaip judesio pėdsakai, pasirinktiniai paryškinimai arba prožektoriai dominančiose vaizdo įrašo vietose. Šio tipo funkcijos gali būti ypač tinkamos skaitmeninės žiniasklaidos ir turinio kūrėjų darbo eigai Ispanijoje, kur nuolat kuriami trumpi vaizdo įrašai ir socialinės žiniasklaidos turinys.
Atviri ištekliai kūrėjams ir tyrėjams

Vadovaudamasi strategija, kurios „Meta“ laikėsi kituose dirbtinio intelekto leidimuose, bendrovė nusprendė išleisti didelę dalį su SAM 3 ir SAM 3D susiję techniniai ištekliaiPirmajam buvo paviešinti modelio svoriai, naujas atvirojo žodyno segmentavimui skirtas etalonas ir techninis dokumentas, kuriame išsamiai aprašytas jo kūrimas.
SAM 3D atveju galima naudoti: modelio kontroliniai taškai, išvadų kodas ir vertinimo duomenų rinkinys naujos kartos. Šiame duomenų rinkinyje yra daug įvairių vaizdų ir objektų, kuriais siekiama peržengti tradicinių 3D atskaitos taškų ribas, užtikrinant didesnį realizmą ir sudėtingumą, o tai gali būti labai naudinga Europos tyrimų grupėms, dirbančioms kompiuterinės regos ir grafikos srityse.
„Meta“ taip pat paskelbė apie bendradarbiavimą su anotacijų platformomis, tokiomis kaip „Roboflow“, siekdama suteikti kūrėjams ir įmonėms galimybę Įveskite savo duomenis ir pakoreguokite SAM 3 atsižvelgiant į konkrečius poreikius. Tai atveria duris sektoriui būdingiems sprendimams – nuo pramoninių patalpų apžiūros iki miesto eismo analizės, įskaitant kultūros paveldo projektus, kuriuose svarbu tiksliai segmentuoti architektūrinius ar meninius elementus.
Pasirinkdama gana atvirą požiūrį, bendrovė siekia užtikrinti, kad kūrėjų ekosistema, universitetai ir startuoliai – įskaitant veikiančius Ispanijoje ir likusioje Europoje – gali eksperimentuoti su šiomis technologijomis, integruoti jas į savo produktus ir galiausiai prisidėti prie naudojimo atvejų, kurie pranoksta tuos, kuriuos „Meta“ gali sukurti viduje.
Su SAM 3 ir SAM 3D „Meta“ siekia konsoliduoti lankstesnė ir prieinamesnė vizualinio dirbtinio intelekto platformakur tekstu pagrįstas segmentavimas ir 3D rekonstrukcija iš vieno vaizdo nebėra tik itin specializuotų komandų galimybės. Potencialus poveikis apima tiek kasdienį vaizdo įrašų redagavimą, tiek pažangias programas moksle, pramonėje ir e. prekyboje, kontekste, kuriame kalbos, kompiuterinės regos ir kūrybiškumo derinimas tampa standartine darbo priemone, o ne tik technologiniu pažadu.
Esu technologijų entuziastas, savo „geek“ pomėgius pavertęs profesija. Daugiau nei 10 savo gyvenimo metų praleidau naudodamas pažangiausias technologijas ir iš gryno smalsumo kūriau visas programas. Dabar aš specializuojasi kompiuterinėse technologijose ir vaizdo žaidimuose. Taip yra todėl, kad daugiau nei 5 metus rašau įvairioms interneto svetainėms apie technologijas ir vaizdo žaidimus, kurdamas straipsnius, kuriuose noriu pateikti jums reikalingą informaciją visiems suprantama kalba.
Jei turite klausimų, mano žinios svyruoja nuo visko, kas susiję su Windows operacine sistema, taip pat su Android mobiliesiems telefonams. Ir aš įsipareigoju jums, aš visada pasiruošęs skirti kelias minutes ir padėti jums išspręsti visus klausimus, kurie jums gali kilti šiame interneto pasaulyje.