- SAM 3 introduce a segmentazione di l'imagine è di i video guidata da esempi testuali è visuali, cù un vucabulariu di milioni di cuncetti.
- SAM 3D permette di ricustruisce oggetti, scene è corpi umani in 3D da una sola maghjina, aduprendu mudelli aperti.
- I mudelli ponu esse pruvati senza cunniscenze tecniche in Segment Anything Playground, cù mudelli pratichi è creativi.
- Meta publica pesi, punti di cuntrollu è novi benchmark in modu chì i sviluppatori è i circadori in Europa è in u restu di u mondu possinu integrà queste capacità in i so prughjetti.
Meta hà fattu un altru passu in u so impegnu à intelligenza artificiale applicata à a visione artificiale cù u lanciu di SAM 3 è SAM 3D, dui mudelli chì allargiscenu a famiglia Segment Anything è chì Anu u scopu di cambià u modu di travaglià cù e foto è i videoLuntanu da esse un esperimentu di laburatoriu, a cumpagnia vole chì sti strumenti sianu aduprati sia da i prufessiunali sia da l'utilizatori senza una furmazione tecnica.
Cù sta nova generazione, Meta si cuncentra nantu à migliurà a rilevazione è a segmentazione di l'uggetti è in purtà u ricostruzione tridimensionale à un publicu assai più larguDa u montaggio video à a visualizazione di u produttu per l'e-commerce in Spagna è in u restu di l'Europa, a cumpagnia prevede un scenariu in u quale Basta à discrive ciò chì vulete fà in parolle per chì l'IA faci a maiò parte di u travagliu pesante..
Chì offre SAM 3 paragunatu à e versioni precedenti?
SAM 3 hè pusizionatu cum'è l'evoluzione diretta di i mudelli di segmentazione chì Meta hà presentatu in u 2023 è u 2024, cunnisciuti cum'è SAM 1 è SAM 2. Queste prime versioni si sò cuncentrate nantu à l'identificazione di quali pixel appartenevanu à ogni ughjettu, principalmente aduprendu segnali visuali cum'è punti, scatule o maschere, è in u casu di SAM 2, seguitendu l'ughjetti in tuttu un video quasi in tempu reale.
U novu sviluppu chjave avà hè chì SAM 3 capisce suggerimenti di testu ricchi è precisimicca solu etichette generali. Mentre chì prima eranu aduprati termini simplici cum'è "vittura" o "autobus", u novu mudellu hè capace di risponde à descrizzioni assai più specifiche, per esempiu "autobus sculare giallu" o "vittura rossa parcheggiata in doppia fila".
In pratica, questu significa chì basta à scrive qualcosa cum'è "cappellu di baseball rossu" affinchì u sistema possi localizà è separà tutti l'elementi chì currispondenu à quella descrizzione in una maghjina o un video. Sta capacità di raffinà cù e parolle hè particularmente utile in cuntesti di edizione prufessiunale, publicità o analisi di cuntenutu, induve spessu ci vole à fighjà dettagli assai specifici.
Inoltre, SAM 3 hè statu cuncipitu per integrà si cù grandi mudelli di lingua multimodaleQuestu vi permette di andà al di là di e frasi simplici è aduprà struzzioni cumplesse cum'è: "Ghjente pusata ma senza cappellu rossu" o "pedoni chì fighjanu a camera ma senza zainu". Stu tipu d'istruzione combina cundizioni è esclusioni chì finu à pocu tempu fà eranu difficiuli da traduce in un strumentu di visione artificiale.
Prestazione è scala di u mudellu SAM 3

Meta vulia ancu mette in risaltu a parte menu visibile ma cruciale: u scala di cunniscenze è di prestazioni tecniche di u mudellu. Sicondu i dati di a cumpagnia, SAM 3 hè capace di processà una sola maghjina cù più di centu oggetti rilevati in circa 30 millisecondi cù una GPU H200, una velocità assai vicina à ciò chì hè necessariu per i flussi di travagliu esigenti.
In u casu di u video, l'impresa assicura chì u sistema mantene e prestazioni. praticamente in tempu reale quandu si travaglia cù circa cinque oggetti simultanei, ciò chì rende fattibile u seguimentu è a segmentazione di cuntenutu in muvimentu, da brevi clip di social media à prughjetti di pruduzzione più ambiziosi.
Per ottene questu cumpurtamentu, Meta hà custruitu una basa di furmazione cù più di 4 milioni di cuncetti unichiCumbinendu l'annotatori umani cù i mudelli di IA per aiutà à etichettà grandi volumi di dati, sta mistura di supervisione manuale è automatizata hà per scopu di equilibrà a precisione è a scala - chjave per assicurà chì u mudellu risponde bè à diversi input in cuntesti di mercatu europei, latinoamericani è altri.
L'impresa inquadra SAM 3 in ciò ch'ella chjama Segment Anything CollectionUna famiglia di mudelli, benchmark è risorse cuncepiti per allargà a cumprensione visuale di l'IA. U lanciu hè accumpagnatu da un novu benchmark per a segmentazione di u "vucabulariu apertu", cuncentratu nantu à a misurazione di a misura in cui u sistema pò capisce guasi ogni cuncettu espressu in lingua naturale.
Integrazione cù Edits, Vibes, è altri strumenti Meta

Oltre à a cumpunente tecnica, Meta hà digià cuminciatu à integrà SAM 3 in prudutti specifici chì sò destinati à l'usu cutidianu. Una di e prime destinazioni serà Edits, a so applicazione di creazione è edizione video, induve l'idea hè chì l'utente pò selezziunà persone o oggetti specifici cù una semplice descrizzione di testu è applicà effetti, filtri o cambiamenti solu à quelle parti di u filmatu.
Un'altra via d'integrazione si truverà in Vibes, in l'app Meta AI è in a piattaforma meta.aiIn questu ambiente, a segmentazione di u testu serà cumminata cù strumenti generativi per creà nuove esperienze di edizione è creative, cum'è sfondi persunalizati, effetti di muvimentu, o mudificazioni fotografiche selettive pensate per e rete suciale chì sò assai populari in Spagna è in u restu di l'Europa.
A pruposta di a cumpagnia hè chì ste capacità ùn sianu micca limitate à studii prufessiunali, ma piuttostu ghjunghjenu à... creatori indipendenti, piccule agenzie è utilizatori avanzati chì travaglianu ogni ghjornu cù cuntenutu visuale. A capacità di segmentà e scene scrivendu descrizzioni in lingua naturale riduce a curva di apprendimentu paragunata à l'arnesi tradiziunali basati nantu à maschere è strati manuali.
À u listessu tempu, Meta mantene un approcciu apertu versu i sviluppatori esterni, suggerendu chì appruvisazioni di terzu -da strumenti di edizione à suluzioni per l'analisi video in u cummerciu al dettaglio o a sicurezza- ponu fidà si di SAM 3 basta chì e pulitiche d'usu di l'impresa sianu rispettate.
SAM 3D: Ricostruzione tridimensionale da una sola maghjina

L'altra grande nutizia hè SAM 3Dun sistema cuncipitu per eseguisce ricostruzioni tridimensionali Partendu da imagine 2D. Invece di avè bisognu di parechje catture da anguli diversi, u mudellu hà per scopu di generà una rappresentazione 3D affidabile da una sola foto, qualcosa di particularmente interessante per quelli chì ùn anu micca apparecchiature di scansione o flussi di travagliu specializati.
SAM 3D hè custituitu da dui mudelli open-source cù funzioni distinte: Oggetti 3D SAMcuncentratu nantu à a ricustruzzione d'ogetti è scene, è Corpu 3D SAM, orientatu à a stima di a forma è di u corpu umanu. Sta separazione permette di adattà u sistema à casi d'usu assai diversi, da i cataloghi di prudutti à l'applicazioni sanitarie o sportive.
Sicondu Meta, SAM 3D Objects marca un Novu benchmark di prestazione in a ricustruzione 3D guidata da l'IAsuperendu facilmente i metudi precedenti in e metriche chjave di qualità. Per valutà più rigorosamente i risultati, a cumpagnia hà travagliatu cù artisti per creà SAM 3D Artist Objects, un inseme di dati specificamente cuncipitu per valutà a fedeltà è u dettagliu di e ricustruzzioni in una larga varietà d'imagine è oggetti.
Questa avanzata apre a porta à applicazioni pratiche in settori cum'è robotica, scienza, medicina sportiva, o creatività digitalePer esempiu, in a robotica pò aiutà i sistemi à capisce megliu u vulume di l'uggetti cù i quali interagiscenu; in a ricerca medica o sportiva, puderia aiutà à analizà a postura è u muvimentu di u corpu; è in u disignu creativo, serve cum'è basa per generà mudelli 3D per l'animazione, i video games o l'esperienze immersive.
Una di e prime applicazioni cummerciali digià visibili hè a funzione "Vista in camera" de U mercatu di Facebookchì vi permette di visualizà cumu un pezzu di mobili o un ughjettu decorativu apparirebbe in una stanza vera prima di cumprà lu. Cù SAM 3D, Meta cerca di perfezziunà sti tipi d'esperienze, assai pertinente per u cummerciu elettronicu europeu, induve u ritornu di i prudutti per via di aspettative micca soddisfatte rapprisenta un costu crescente.
Segment Anything Playground: un ambiente per sperimentà

Per permette à u publicu di pruvà ste capacità senza installà nunda, Meta hà attivatu u Segmentu di tuttu ciò chì hè un parcu di ghjochiHè una piattaforma web chì vi permette di caricà imagine o video è sperimentà cù SAM 3 è SAM 3D direttamente da u vostru navigatore. L'idea hè chì qualchissia chì hè curiosu di l'IA visuale pò esplorà ciò chì hè pussibule senza alcuna cunniscenza di prugrammazione.
In u casu di SAM 3, u Playground permette di segmentà l'uggetti aduprendu frasi brevi o istruzioni dettagliateCumbinendu testu è, se vulete, esempi visuali. Questu simplifica i travaglii cumuni cum'è a selezzione di persone, vitture, animali o elementi specifichi di a scena è l'applicazione di azzioni specifiche, da effetti estetichi à sfocatura o sustituzione di u fondu.
Quandu si travaglia cù SAM 3D, a piattaforma rende pussibule Esplora scene da nuove prospettiveriorganizà l'uggetti, applicà effetti tridimensionali o generà viste alternative. Per quelli chì travaglianu in u disignu, a publicità o u cuntenutu 3D, offre un modu rapidu per prototipà idee senza avè da aduprà strumenti tecnichi cumplessi da u principiu.
U Campu di Ghjocu include ancu una seria di mudelli pronti à aduprà Queste funzioni sò orientate versu compiti assai specifichi. Includenu opzioni pratiche cum'è a pixelazione di visi o targhe per ragioni di privacy, è effetti visuali cum'è scie di muvimentu, punti culminanti selettivi o riflettori nantu à zone d'interessu in u video. Questi tipi di funzioni ponu esse particularmente adatti à i flussi di travagliu di i creatori di media digitali è di cuntenutu in Spagna, induve a pruduzzione di brevi video è cuntenutu di social media hè custante.
Risorse aperte per sviluppatori è ricercatori

In cunfurmità cù a strategia chì Meta hà seguitu in altre versioni di l'IA, a cumpagnia hà decisu di pubblicà una parte significativa di u risorse tecniche assuciate à SAM 3 è SAM 3DPer u primu, i pesi di u mudellu, un novu benchmark focalizatu nantu à a segmentazione di u vucabulariu apertu, è un documentu tecnicu chì detalla u so sviluppu sò stati resi publichi.
In u casu di SAM 3D, i seguenti sò dispunibili: punti di cuntrollu di u mudellu, codice d'inferenza è un inseme di dati di valutazione prossima generazione. Stu inseme di dati include una varietà cunsiderevule d'imagine è d'uggetti chì hà per scopu d'andà al di là di i punti di riferimentu 3D tradiziunali, furnendu un più grande realismu è cumplessità, qualcosa chì pò esse assai utile per i gruppi di ricerca europei chì travaglianu in visione artificiale è grafica.
Meta hà ancu annunziatu cullaburazioni cù piattaforme d'annotazione cum'è Roboflow, cù l'ubbiettivu di permette à i sviluppatori è à l'imprese di Inserite i vostri dati è aghjustate SAM 3 à bisogni specifichi. Questu apre a porta à suluzioni specifiche di u settore, da l'ispezione industriale à l'analisi di u trafficu urbanu, cumpresi i prughjetti di patrimoniu culturale induve hè impurtante segmentà accuratamente elementi architettonichi o artistici.
Optendu per un approcciu relativamente apertu, a cumpagnia cerca di assicurà chì l'ecosistema di sviluppatori, università è startup -cumpresi quelli chì operanu in Spagna è in u restu di l'Europa- ponu sperimentà cù ste tecnulugie, integralle in i so prudutti è, infine, cuntribuisce casi d'usu chì vanu al di là di quelli chì Meta pò sviluppà internamente.
Cù SAM 3 è SAM 3D, Meta hà per scopu di cunsulidà una piattaforma di IA visuale più flessibile è accessibileinduve a segmentazione guidata da testu è a ricustruzione 3D da una sola maghjina ùn sò più capacità riservate à squadre altamente specializate. L'impattu putenziale si estende da u montaggio video di ogni ghjornu à applicazioni avanzate in scienza, industria è cummerciu elettronicu, in un cuntestu induve a cumbinazione di lingua, visione artificiale è creatività diventa un strumentu di travagliu standard è micca solu una prumessa tecnologica.
Sò un entusiasta di a tecnulugia chì hà trasfurmatu i so interessi "geek" in una professione. Aghju passatu più di 10 anni di a mo vita cù a tecnulugia d'avanguardia è scacciendu ogni tipu di prugrammi per pura curiosità. Avà sò specializatu in tecnulugia di computer è video games. Questu hè chì dapoi più di 5 anni aghju scrittu per diversi siti web nantu à a tecnulugia è i video games, creendu articuli chì cercanu di dà l'infurmazioni chì avete bisognu in una lingua chì hè comprensibile à tutti.
Sì avete qualchì quistione, a mo cunniscenza varieghja da tuttu ciò chì riguarda u sistema operatore Windows è ancu Android per i telefunini. È u mo impegnu hè di voi, sò sempre dispostu à passà uni pochi di minuti è aiutavvi à risolve tutte e dumande chì pudete avè in questu mondu Internet.