Meta predstavuje SAM 3 a SAM 3D: novú generáciu vizuálnej umelej inteligencie

Posledná aktualizácia: 27/11/2025

  • SAM 3 predstavuje segmentáciu obrázkov a videa s pomocou textových a vizuálnych príkladov a slovníka miliónov konceptov.
  • SAM 3D umožňuje rekonštruovať objekty, scény a ľudské telá v 3D z jedného obrázka pomocou otvorených modelov.
  • Modely je možné testovať bez technických znalostí v Segment Anything Playground s praktickými a kreatívnymi šablónami.
  • Meta vydáva váhy, kontrolné body a nové benchmarky, aby vývojári a výskumníci v Európe a zvyšku sveta mohli tieto funkcie integrovať do svojich projektov.
SAM 3D

Spoločnosť Meta urobila ďalší krok vo svojom záväzku umelá inteligencia aplikovaná na počítačové videnie s Spustenie hier SAM 3 a SAM 3D, dva modely, ktoré rozširujú rodinu Segment Anything a ktoré Ich cieľom je zmeniť spôsob, akým pracujeme s fotografiami a videamiSpoločnosť zďaleka nezostáva len laboratórnym experimentom, ale chce, aby tieto nástroje používali profesionáli aj používatelia bez technického vzdelania.

S touto novou generáciou sa Meta zameriava na zlepšiť detekciu a segmentáciu objektov a pri prinášaní trojrozmerná rekonštrukcia pre oveľa širšie publikumOd strihu videa až po vizualizáciu produktov pre elektronický obchod v Španielsku a zvyšku Európy si spoločnosť predstavuje scenár, v ktorom Stačí jednoducho slovami opísať, čo chcete robiť, aby umelá inteligencia urobila väčšinu ťažkej práce..

Čo ponúka SAM 3 v porovnaní s predchádzajúcimi verziami?

SAM 3 je umiestnený ako priamy vývoj segmentačných modelov, ktoré spoločnosť Meta predstavila v rokoch 2023 a 2024, známych ako SAM 1 a SAM 2. Tieto skoré verzie sa zameriavali na identifikáciu pixelov patriacich ku každému objektu, najmä pomocou vizuálnych podnetov, ako sú bodky, štvorčeky alebo masky, a v prípade SAM 2 sledovali objekty počas celého videa takmer v reálnom čase.

Kľúčovým novým vývojom je teraz to, že SAM 3 rozumie bohaté a presné textové pokynynielen všeobecné označenia. Zatiaľ čo predtým sa používali jednoduché výrazy ako „auto“ alebo „autobus“, nový model dokáže reagovať na oveľa špecifickejšie popisy, napríklad „žltý školský autobus“ alebo „červené auto zaparkované dvojito“.

V praxi to znamená, že stačí napísať niečo ako „Červená bejzbalová čiapka“ aby systém mohol nájsť a oddeliť všetky prvky, ktoré zodpovedajú danému popisu v rámci obrázka alebo videa. Táto schopnosť spresniť pomocou slov je obzvlášť užitočná v profesionálne editačné kontexty, reklama alebo analýza obsahu, kde sa často musíte zamerať na veľmi špecifické detaily.

Okrem toho bol SAM 3 navrhnutý tak, aby sa integroval s rozsiahle multimodálne jazykové modelyTo vám umožňuje ísť nad rámec jednoduchých fráz a používať zložité pokyny, ako napríklad: „Ľudia sedia, ale nemajú na sebe červenú čiapku“ alebo „chodci, ktorí sa pozerajú do kamery, ale bez batohu.“ Tento typ inštrukcií kombinuje podmienky a výnimky, ktoré bolo donedávna ťažké preložiť do nástroja počítačového videnia.

Exkluzívny obsah – kliknite sem  Najlepšie bezplatné programy na čistenie, optimalizáciu a prispôsobenie systému Windows 11

Výkon a rozsah modelu SAM 3

Metamodel SAM 3

Meta chcela tiež zdôrazniť menej viditeľnú, ale kľúčovú časť: technický výkon a škála znalostí modelu. Podľa údajov spoločnosti je SAM 3 schopný spracovať jeden obrázok s viac ako stovkou detekovaných objektov za približne 30 milisekúnd pomocou grafického procesora H200, čo je rýchlosť veľmi blízka tomu, čo je potrebné pre náročné pracovné postupy.

V prípade videa firma zaručuje, že systém si zachováva výkon. prakticky v reálnom čase pri práci s približne piatimi simultánnymi objektmi, čo umožňuje sledovanie a segmentáciu pohybujúceho sa obsahu, od krátkych klipov zo sociálnych médií až po ambicióznejšie produkčné projekty.

Na dosiahnutie tohto správania si Meta vybudovala tréningovú základňu s viac ako 4 milióny unikátnych konceptovTáto kombinácia manuálneho a automatizovaného dohľadu, ktorá kombinuje ľudských anotátorov s modelmi umelej inteligencie, pomáha označovať veľké objemy údajov a jej cieľom je vyvážiť presnosť a rozsah – čo je kľúčové pre zabezpečenie toho, aby model dobre reagoval na rozmanité vstupy v európskom, latinskoamerickom a inom trhovom kontexte.

Spoločnosť zaraďuje SAM 3 do rámca, ktorý nazýva Kolekcia Segment AnythingRodina modelov, benchmarkov a zdrojov navrhnutých na rozšírenie vizuálneho chápania umelej inteligencie. Spustenie sprevádza nový benchmark pre segmentáciu „otvorenej slovnej zásoby“, zameraný na meranie rozsahu, do akého systém dokáže pochopiť takmer akýkoľvek koncept vyjadrený v prirodzenom jazyku.

Integrácia s Editmi, Vibes a ďalšími Meta nástrojmi

Upravujte 4K videá pomocou Meta Edits

Okrem technickej zložky už Meta začala integrovať SAM 3 do špecifických produktov ktoré sú určené na každodenné použitie. Jednou z prvých destinácií budú Úpravy, ich aplikácia na tvorbu a úpravu videa, kde je myšlienkou, že používateľ si môže vybrať konkrétne osoby alebo objekty pomocou jednoduchého textového popisu a aplikovať efekty, filtre alebo zmeny iba na tieto časti záberov.

Ďalšia cesta k integrácii sa nájde v Vibes v rámci aplikácie Meta AI a platformy meta.aiV tomto prostredí bude segmentácia textu kombinovaná s generatívnymi nástrojmi s cieľom vytvoriť nové editačné a kreatívne zážitky, ako sú napríklad vlastné pozadia, pohybové efekty alebo selektívne úpravy fotografií určené pre sociálne siete, ktoré sú veľmi populárne v Španielsku a zvyšku Európy.

Návrh spoločnosti je, aby sa tieto schopnosti neobmedzovali len na odborné štúdium, ale aby sa skôr rozšírili na... nezávislí tvorcovia, malé agentúry a pokročilí používatelia ktorí denne pracujú s vizuálnym obsahom. Možnosť segmentovať scény písaním popisov v prirodzenom jazyku skracuje krivku učenia v porovnaní s tradičnými nástrojmi založenými na manuálnych maskách a vrstvách.

Zároveň si Meta zachováva otvorený prístup voči externým vývojárom, čo naznačuje, že aplikácie tretích strán – od nástrojov na úpravu až po riešenia pre video analytiku v maloobchode alebo bezpečnosti – sa môžu spoľahnúť na SAM 3, pokiaľ sa dodržiavajú pravidlá používania spoločnosti.

Exkluzívny obsah – kliknite sem  Čo je „Režim efektívnosti“ v systéme Windows 11 a ako ho použiť na šetrenie batérie bez straty energie?

SAM 3D: Trojrozmerná rekonštrukcia z jedného obrazu

Ako funguje SAM 3D

Ďalšou veľkou novinkou je SAM 3Dsystém navrhnutý na vykonávanie trojrozmerné rekonštrukcie vychádzajúc z 2D obrázkov. Namiesto potreby viacerých snímok z rôznych uhlov sa model zameriava na generovanie spoľahlivého 3D zobrazenia z jednej fotografie, čo je obzvlášť zaujímavé pre tých, ktorí nemajú špecializované skenovacie zariadenie alebo pracovné postupy.

SAM 3D pozostáva z dvoch open-source modelov s odlišnými funkciami: 3D objekty SAMzamerané na rekonštrukciu objektov a scén a SAM 3D telo, zameraný na odhad ľudského tvaru a tela. Toto oddelenie umožňuje prispôsobiť systém veľmi rôznym prípadom použitia, od katalógov produktov až po zdravotnícke alebo športové aplikácie.

Podľa Mety, SAM 3D Objects označuje Nový výkonnostný štandard v 3D rekonštrukcii s umelou inteligenciouľahko prekonáva predchádzajúce metódy v kľúčových ukazovateľoch kvality. Pre dôkladnejšie vyhodnotenie výsledkov spoločnosť spolupracovala s umelcami na vytvorení SAM 3D Artist Objects, súboru údajov špeciálne navrhnutého na posúdenie vernosti a detailov rekonštrukcií v širokej škále obrázkov a objektov.

Tento pokrok otvára dvere praktickým aplikáciám v oblastiach, ako sú robotika, veda, športová medicína alebo digitálna kreativitaNapríklad v robotike môže pomôcť systémom lepšie pochopiť objem objektov, s ktorými interagujú; v medicínskom alebo športovom výskume by mohol pomôcť analyzovať držanie tela a pohyb; a v kreatívnom dizajne slúži ako základ pre generovanie 3D modelov pre animácie, videohry alebo pohlcujúce zážitky.

Jednou z prvých komerčných aplikácií, ktoré sú už viditeľné, je funkcia „Výhľad z izby“ de Trh Facebookučo vám umožňuje vizualizovať, ako by kus nábytku alebo dekoratívny predmet vyzeral v skutočnej miestnosti ešte pred jeho kúpou. So SAM 3D, Meta sa snaží zdokonaliť tieto typy zážitkov, čo je veľmi dôležité pre európsky elektronický obchod, kde vrátenie produktov z dôvodu nenaplnených očakávaní predstavuje rastúce náklady.

Ako previesť ľudí a objekty do 3D modelov pomocou SAM 3D
Súvisiaci článok:
Prevod ľudí a objektov do 3D pomocou nástrojov Meta SAM 3 a SAM 3D

Ihrisko Segment Anything: prostredie na experimentovanie

Segment Anything Playground

Aby verejnosť mohla tieto funkcie otestovať bez inštalácie čohokoľvek, Meta povolila Segment Anything PlaygroundJe to webová platforma, ktorá vám umožňuje nahrávať obrázky alebo videá a experimentovať so SAM 3 a SAM 3D priamo z vášho prehliadača. Myšlienkou je, aby každý, kto sa zaujíma o vizuálnu umelú inteligenciu, mohol preskúmať možnosti bez akýchkoľvek znalostí programovania.

V prípade SAM 3 umožňuje Playground segmentáciu objektov pomocou krátke frázy alebo podrobné pokynyKombinovanie textu a v prípade potreby aj vizuálnych príkladov. Zjednodušuje to bežné úlohy, ako je výber ľudí, áut, zvierat alebo konkrétnych prvkov scény a aplikovanie špecifických akcií na ne, od estetických efektov až po rozmazanie alebo nahradenie pozadia.

Exkluzívny obsah – kliknite sem  Nvidia posilňuje svoju strategickú alianciu so spoločnosťou Synopsys v centre vývoja čipov

Pri práci so SAM 3D platforma umožňuje Preskúmajte scény z nových perspektívzmeniť usporiadanie objektov, aplikovať trojrozmerné efekty alebo generovať alternatívne pohľady. Pre tých, ktorí pracujú v oblasti dizajnu, reklamy alebo 3D obsahu, ponúka rýchly spôsob tvorby prototypov nápadov bez nutnosti používať zložité technické nástroje od začiatku.

Ihrisko zahŕňa aj sériu šablóny pripravené na použitie Tieto funkcie sú zamerané na veľmi špecifické úlohy. Zahŕňajú praktické možnosti, ako je pixelovanie tvárí alebo evidenčných čísel vozidiel z dôvodov ochrany súkromia, a vizuálne efekty, ako sú stopy pohybu, selektívne zvýraznenia alebo reflektory na zaujímavé oblasti vo videu. Tieto typy funkcií môžu byť obzvlášť vhodné pre pracovné postupy tvorcov digitálnych médií a obsahu v Španielsku, kde je produkcia krátkych videí a obsahu pre sociálne médiá neustále rozšírená.

Otvorené zdroje pre vývojárov a výskumníkov

Príklady metadát SAM 3D

V súlade so stratégiou, ktorú spoločnosť Meta dodržiavala v iných vydaniach AI, sa spoločnosť rozhodla vydať významnú časť technické zdroje spojené so SAM 3 a SAM 3DV prvom rade boli zverejnené váhy modelu, nový benchmark zameraný na segmentáciu otvorenej slovnej zásoby a technický dokument s podrobnosťami o jeho vývoji.

V prípade SAM 3D sú k dispozícii nasledujúce možnosti: kontrolné body modelu, inferenčný kód a súbor údajov o vyhodnotení ďalšej generácie. Tento súbor údajov obsahuje značnú rozmanitosť obrázkov a objektov, ktorých cieľom je ísť nad rámec tradičných 3D referenčných bodov a poskytnúť väčší realizmus a komplexnosť, čo môže byť veľmi užitočné pre európske výskumné skupiny pracujúce v oblasti počítačového videnia a grafiky.

Spoločnosť Meta tiež oznámila spoluprácu s anotačnými platformami, ako je Roboflow, s cieľom umožniť vývojárom a spoločnostiam Zadajte vlastné údaje a upravte SAM 3 špecifickým potrebám. To otvára dvere k riešeniam špecifickým pre daný sektor, od priemyselnej inšpekcie až po analýzu mestskej dopravy, vrátane projektov kultúrneho dedičstva, kde je dôležité presne segmentovať architektonické alebo umelecké prvky.

Zvolením relatívne otvoreného prístupu sa spoločnosť snaží zabezpečiť, aby vývojársky ekosystém, univerzity a startupy – vrátane tých, ktorí pôsobia v Španielsku a zvyšku Európy – môžu s týmito technológiami experimentovať, integrovať ich do vlastných produktov a v konečnom dôsledku prispievať prípadmi použitia, ktoré presahujú rámec tých, ktoré dokáže Meta vyvinúť interne.

S programami SAM 3 a SAM 3D sa spoločnosť Meta snaží upevniť flexibilnejšia a prístupnejšia platforma vizuálnej umelej inteligenciekde textom riadená segmentácia a 3D rekonštrukcia z jedného obrázka už nie sú vyhradené len pre vysoko špecializované tímy. Potenciálny dopad siaha od každodennej strihovej práce s videom až po pokročilé aplikácie vo vede, priemysle a elektronickom obchode v kontexte, kde sa kombinácia jazyka, počítačového videnia a kreativity stáva štandardným pracovným nástrojom a nie len technologickým prísľubom.