- SAM 3 uvodi segmentaciju slika i videa vođenu tekstualnim i vizualnim primjerima, s vokabularom od milijuna koncepata.
- SAM 3D vam omogućuje rekonstrukciju objekata, scena i ljudskih tijela u 3D-u iz jedne slike, koristeći otvorene modele.
- Modeli se mogu testirati bez tehničkog znanja u Segment Anything Playgroundu, s praktičnim i kreativnim predlošcima.
- Meta objavljuje težine, kontrolne točke i nove kriterije kako bi programeri i istraživači u Europi i ostatku svijeta mogli integrirati te mogućnosti u svoje projekte.
Meta je napravila još jedan korak u svojoj predanosti umjetna inteligencija primijenjena na računalni vid s Lansiranje igara SAM 3 i SAM 3D, dva modela koja proširuju obitelj Segment Anything i to Cilj im je promijeniti način na koji radimo s fotografijama i videozapisimaDaleko od toga da ostane laboratorijski eksperiment, tvrtka želi da ove alate koriste i profesionalci i korisnici bez tehničkog obrazovanja.
S ovom novom generacijom, Meta se fokusira na poboljšati detekciju i segmentaciju objekata i donošenjem trodimenzionalna rekonstrukcija mnogo široj publiciOd video montaže do vizualizacije proizvoda za e-trgovinu u Španjolskoj i ostatku Europe, tvrtka zamišlja scenarij u kojem Jednostavno opisati riječima što želite učiniti dovoljno je da umjetna inteligencija obavi većinu teškog posla..
Što SAM 3 nudi u usporedbi s prethodnim verzijama?
SAM 3 je pozicioniran kao izravna evolucija modela segmentacije koje je Meta predstavila 2023. i 2024. godine, poznatih kao SAM 1 i SAM 2. Te rane verzije usredotočile su se na identificiranje piksela koji pripadaju svakom objektu, uglavnom korištenjem vizualnih znakova poput točaka, okvira ili maski, a u slučaju SAM 2, praćenjem objekata kroz videozapis gotovo u stvarnom vremenu.
Ključni novi razvoj sada je da SAM 3 razumije bogate i precizne tekstualne uputene samo općenite oznake. Dok su se prije koristili jednostavni pojmovi poput "automobil" ili "autobus", novi model može odgovoriti na mnogo specifičnije opise, na primjer "žuti školski autobus" ili "crveni automobil parkiran dvostruko".
U praksi to znači da je dovoljno napisati nešto poput "crvena bejzbolska kapa" tako da sustav može locirati i odvojiti sve elemente koji odgovaraju tom opisu unutar slike ili videa. Ova sposobnost preciziranja riječima posebno je korisna u profesionalni konteksti uređivanja, oglašavanje ili analiza sadržaja, gdje često morate pogledati vrlo specifične detalje.
Nadalje, SAM 3 je dizajniran za integraciju s veliki multimodalni jezični modeliTo vam omogućuje da idete dalje od jednostavnih fraza i koristite složene upute kao što su: "Ljudi sjede, ali ne nose crvenu kapu" ili „pješaci koji gledaju u kameru, ali bez ruksaka.“ Ova vrsta upute kombinira uvjete i izuzeća koja je do nedavno bilo teško prevesti u alat za računalni vid.
Performanse i skala modela SAM 3

Meta je također htio istaknuti manje vidljiv, ali ključni dio: tehnička izvedba i skala znanja modela. Prema podacima tvrtke, SAM 3 je sposoban obraditi jednu sliku s više od stotinu detektiranih objekata za oko 30 milisekundi koristeći H200 GPU, što je brzina vrlo blizu onome što je potrebno za zahtjevne tijekove rada.
U slučaju videa, tvrtka jamči da sustav održava performanse virtualno u stvarnom vremenu pri radu s oko pet istovremenih objekata, što ga čini održivim za praćenje i segmentiranje sadržaja u pokretu, od kratkih isječaka s društvenih mreža do ambicioznijih produkcijskih projekata.
Kako bi postigla ovo ponašanje, Meta je izgradila bazu za obuku s više od 4 milijuna jedinstvenih koncepataKombinirajući ljudske anotatore s AI modelima kako bi se pomoglo u označavanju velikih količina podataka, ova mješavina ručnog i automatiziranog nadzora ima za cilj uravnotežiti točnost i opseg - ključno za osiguranje da model dobro reagira na različite unose u europskim, latinoameričkim i drugim tržišnim kontekstima.
Tvrtka uokviruje SAM 3 unutar onoga što naziva Kolekcija Segment AnythingObitelj modela, mjerila i resursa osmišljenih za proširenje vizualnog razumijevanja umjetne inteligencije. Pokretanje prati novo mjerilo za segmentaciju "otvorenog vokabulara", usmjereno na mjerenje stupnja u kojem sustav može razumjeti gotovo svaki koncept izražen prirodnim jezikom.
Integracija s Edits, Vibes i drugim Meta alatima

Osim tehničke komponente, Meta je već počela integrirati SAM 3 u određene proizvode koji su namijenjeni svakodnevnoj upotrebi. Jedno od prvih odredišta bit će Uredi, njihova aplikacija za izradu i uređivanje videa, gdje je ideja da korisnik može odabrati određene ljude ili objekte jednostavnim tekstualnim opisom i primijeniti efekte, filtere ili promjene samo na te dijelove snimke.
Drugi put za integraciju naći će se u Vibes, unutar aplikacije Meta AI i platforme meta.aiU ovom okruženju, segmentacija teksta bit će kombinirana s generativnim alatima za stvaranje novih iskustava uređivanja i kreativnosti, poput prilagođenih pozadina, efekata pokreta ili selektivnih modifikacija fotografija dizajniranih za društvene mreže koje su vrlo popularne u Španjolskoj i ostatku Europe.
Prijedlog tvrtke je da se te mogućnosti ne ograniče na stručne studije, već da dosegnu... neovisni kreatori, male agencije i napredni korisnici koji svakodnevno rade s vizualnim sadržajem. Mogućnost segmentacije scena pisanjem opisa prirodnim jezikom smanjuje krivulju učenja u usporedbi s tradicionalnim alatima temeljenim na ručnim maskama i slojevima.
Istovremeno, Meta održava otvoren pristup prema vanjskim programerima, što sugerira da aplikacije trećih osoba - od alata za uređivanje do rješenja za video analitiku u maloprodaji ili sigurnosti - mogu se osloniti na SAM 3 sve dok se poštuju pravila korištenja tvrtke.
SAM 3D: Trodimenzionalna rekonstrukcija iz jedne slike

Druga velika vijest je SAM 3Dsustav dizajniran za izvođenje trodimenzionalne rekonstrukcije počevši od 2D slika. Umjesto potrebe za višestrukim snimanjem iz različitih kutova, model ima za cilj generirati pouzdan 3D prikaz iz jedne fotografije, što je posebno zanimljivo za one koji nemaju specijaliziranu opremu za skeniranje ili tijek rada.
SAM 3D se sastoji od dva modela otvorenog koda s različitim funkcijama: SAM 3D objektiusmjeren na rekonstrukciju predmeta i scena, i SAM 3D tijelo, usmjeren na procjenu ljudskog oblika i tijela. Ova odvojenost omogućuje prilagodbu sustava vrlo različitim slučajevima upotrebe, od kataloga proizvoda do zdravstvenih ili sportskih primjena.
Prema Meti, SAM 3D Objects označava Novi standard performansi u 3D rekonstrukciji vođenoj umjetnom inteligencijomlako nadmašujući prethodne metode u ključnim pokazateljima kvalitete. Kako bi rigoroznije procijenila rezultate, tvrtka je surađivala s umjetnicima na stvaranju SAM 3D umjetničkih objekata, skupa podataka posebno dizajniranog za procjenu vjernosti i detalja rekonstrukcija na širokom rasponu slika i objekata.
Ovaj napredak otvara vrata praktičnim primjenama u područjima kao što su robotika, znanost, sportska medicina ili digitalna kreativnostNa primjer, u robotici može pomoći sustavima da bolje razumiju volumen objekata s kojima komuniciraju; u medicinskim ili sportskim istraživanjima može pomoći u analizi držanja i pokreta tijela; a u kreativnom dizajnu služi kao osnova za generiranje 3D modela za animaciju, videoigre ili impresivna iskustva.
Jedna od prvih komercijalnih primjena koja je već vidljiva je funkcija "Pogled u sobi" de Facebook Marketplacešto vam omogućuje vizualizaciju kako bi komad namještaja ili ukrasnog predmeta izgledao u stvarnoj sobi prije kupnje. Sa SAM 3D-om, Meta nastoji usavršiti ovakva iskustva, što je vrlo relevantno za europsku e-trgovinu, gdje vraćanje proizvoda zbog neispunjenih očekivanja predstavlja sve veći trošak.
Segment Anything Playground: okruženje za eksperimentiranje

Kako bi javnost mogla testirati ove mogućnosti bez instaliranja ičega, Meta je omogućila Segmentirajte bilo što igrališteTo je web platforma koja vam omogućuje prijenos slika ili videozapisa i eksperimentiranje sa SAM 3 i SAM 3D izravno iz vašeg preglednika. Ideja je da svatko tko je znatiželjan o vizualnoj umjetnoj inteligenciji može istražiti što je moguće bez ikakvog znanja programiranja.
U slučaju SAM 3, Playground omogućuje segmentaciju objekata pomoću kratke fraze ili detaljne uputeKombiniranje teksta i, ako je potrebno, vizualnih primjera. To pojednostavljuje uobičajene zadatke poput odabira ljudi, automobila, životinja ili određenih elemenata scene i primjene određenih radnji na njih, od estetskih efekata do zamućenja ili zamjene pozadine.
Pri radu sa SAM 3D-om, platforma omogućuje Istražite scene iz novih perspektivapreurediti objekte, primijeniti trodimenzionalne efekte ili generirati alternativne prikaze. Za one koji rade u dizajnu, oglašavanju ili 3D sadržaju, nudi brz način izrade prototipova ideja bez potrebe za korištenjem složenih tehničkih alata od samog početka.
Igralište također uključuje niz predlošci spremni za korištenje Ove su značajke usmjerene na vrlo specifične zadatke. Uključuju praktične opcije poput pikselizacije lica ili registarskih pločica radi privatnosti i vizualne efekte poput tragova kretanja, selektivnih svjetala ili reflektora na područjima od interesa u videu. Ove vrste funkcija mogu biti posebno dobro prilagođene tijekovima rada digitalnih medija i kreatora sadržaja u Španjolskoj, gdje je produkcija kratkih videa i sadržaja za društvene mreže stalna.
Otvoreni resursi za razvojne programere i istraživače

U skladu sa strategijom koju je Meta slijedila u drugim izdanjima umjetne inteligencije, tvrtka je odlučila objaviti značajan dio tehnički resursi povezani sa SAM 3 i SAM 3DZa prvo, javno su objavljeni ponderi modela, novi kriterij usmjeren na segmentaciju otvorenog vokabulara i tehnički dokument s detaljima o njegovom razvoju.
U slučaju SAM 3D, dostupno je sljedeće: kontrolne točke modela, inferencijski kod i skup podataka za evaluaciju sljedeće generacije. Ovaj skup podataka uključuje znatnu raznolikost slika i objekata koji imaju za cilj nadilaziti tradicionalne 3D referentne točke, pružajući veći realizam i složenost, nešto što može biti vrlo korisno za europske istraživačke skupine koje rade u području računalnog vida i grafike.
Meta je također najavila suradnju s platformama za anotacije poput Roboflowa, s ciljem omogućavanja programerima i tvrtkama da Unesite vlastite podatke i prilagodite SAM 3 specifičnim potrebama. To otvara vrata rješenjima specifičnim za sektor, od industrijske inspekcije do analize urbanog prometa, uključujući projekte kulturne baštine gdje je važno točno segmentirati arhitektonske ili umjetničke elemente.
Odabirom relativno otvorenog pristupa, tvrtka nastoji osigurati da ekosustav razvojnih programera, sveučilišta i startupa - uključujući one koji posluju u Španjolskoj i ostatku Europe - mogu eksperimentirati s tim tehnologijama, integrirati ih u vlastite proizvode i, u konačnici, doprinijeti slučajevima upotrebe koji nadilaze one koje Meta može razviti interno.
Sa SAM 3 i SAM 3D, Meta ima za cilj konsolidirati fleksibilnija i pristupačnija vizualna AI platformagdje segmentacija vođena tekstom i 3D rekonstrukcija iz jedne slike više nisu mogućnosti rezervirane za visoko specijalizirane timove. Potencijalni utjecaj proteže se od svakodnevne video montaže do naprednih primjena u znanosti, industriji i e-trgovini, u kontekstu gdje kombinacija jezika, računalnog vida i kreativnosti postaje standardni radni alat, a ne samo tehnološko obećanje.
Ja sam tehnološki entuzijast koji je svoje "geek" interese pretvorio u profesiju. Proveo sam više od 10 godina svog života koristeći vrhunsku tehnologiju i petljajući sa svim vrstama programa iz čiste znatiželje. Sada sam se specijalizirao za računalne tehnologije i video igre. To je zato što sam više od 5 godina pisao za razne web stranice o tehnologiji i videoigrama, stvarajući članke koji vam nastoje dati informacije koje su vam potrebne na jeziku koji je svima razumljiv.
Ako imate bilo kakvih pitanja, moje znanje seže od svega vezanog uz Windows operativni sustav kao i Android za mobitele. I moja je posvećenost vama, uvijek sam spreman odvojiti nekoliko minuta i pomoći vam riješiti sva pitanja koja imate u ovom internetskom svijetu.