- SAM 3 představuje segmentaci obrázků a videa s využitím textových a vizuálních příkladů a slovní zásoby milionů konceptů.
- SAM 3D umožňuje rekonstruovat objekty, scény a lidská těla ve 3D z jednoho obrazu s využitím otevřených modelů.
- Modely lze testovat bez technických znalostí v Segment Anything Playground s praktickými a kreativními šablonami.
- Meta vydává váhy, kontrolní body a nové benchmarky, aby vývojáři a výzkumníci v Evropě i zbytku světa mohli tyto funkce integrovat do svých projektů.
Společnost Meta učinila další krok ve svém závazku umělá inteligence aplikovaná na počítačové vidění s Uvedení her SAM 3 a SAM 3D, dva modely, které rozšiřují rodinu Segment Anything a že Jejich cílem je změnit způsob, jakým pracujeme s fotografiemi a videi.Společnost zdaleka nezůstává jen laboratorním experimentem, ale chce, aby tyto nástroje používali jak profesionálové, tak uživatelé bez technického vzdělání.
S touto novou generací se Meta zaměřuje na zlepšit detekci a segmentaci objektů a přinášet trojrozměrná rekonstrukce pro mnohem širší publikumOd střihu videa až po vizualizaci produktů pro e-commerce ve Španělsku a zbytku Evropy si společnost představuje scénář, ve kterém Stačí, když popíšete, co chcete dělat, slovy, aby umělá inteligence udělala většinu těžké práce..
Co SAM 3 nabízí ve srovnání s předchozími verzemi?
SAM 3 je prezentován jako přímý vývoj segmentačních modelů, které Meta představila v letech 2023 a 2024, známých jako SAM 1 a SAM 2. Tyto rané verze se zaměřovaly na identifikaci pixelů, které patří každému objektu, a to především pomocí vizuálních podnětů, jako jsou tečky, čtverečky nebo masky, a v případě SAM 2 na sledování objektů v celém videu téměř v reálném čase.
Klíčovým novým vývojem je nyní to, že SAM 3 chápe bohaté a přesné textové pokynynejen obecné označení. Zatímco dříve se používaly jednoduché termíny jako „auto“ nebo „autobus“, nový model je schopen reagovat na mnohem konkrétnější popisy, například „žlutý školní autobus“ nebo „červené auto zaparkované dvojitě“.
V praxi to znamená, že stačí napsat něco jako „červená baseballová čepice“ aby systém mohl v obrázku nebo videu najít a oddělit všechny prvky, které odpovídají danému popisu. Tato schopnost upřesnění pomocí slov je obzvláště užitečná v profesionální editační kontexty, reklama nebo analýza obsahu, kde se často musíte zaměřit na velmi specifické detaily.
SAM 3 byl navíc navržen pro integraci s velké multimodální jazykové modelyTo vám umožňuje jít nad rámec jednoduchých frází a používat složité instrukce, jako například: „Lidé sedí, ale nemají na sobě červenou čepici“ nebo „chodci, kteří se dívají do kamery, ale nemají batoh.“ Tento typ instrukcí kombinuje podmínky a výjimky, které bylo donedávna obtížné převést do nástroje počítačového vidění.
Výkon a škálovatelnost modelu SAM 3

Meta chtěla také zdůraznit méně viditelnou, ale klíčovou část: technický výkon a škála znalostí modelu. Podle údajů společnosti je SAM 3 schopen zpracovat jeden snímek s více než stovkou detekovaných objektů za přibližně 30 milisekund s využitím grafického procesoru H200, což je rychlost velmi blízká tomu, co je potřeba pro náročné pracovní postupy.
V případě videa firma ujišťuje, že systém si udrží výkon. prakticky v reálném čase při práci s přibližně pěti simultánními objekty, což je vhodné pro sledování a segmentaci pohyblivého obsahu, od krátkých klipů ze sociálních médií až po ambicióznější produkční projekty.
Aby tohoto chování dosáhla, Meta vybudovala tréninkovou základnu s více než 4 miliony unikátních konceptůTato kombinace manuálního a automatizovaného dohledu, která kombinuje lidské anotátory s modely umělé inteligence, pomáhá označovat velké objemy dat a snaží se vyvážit přesnost a rozsah – což je klíčové pro zajištění toho, aby model dobře reagoval na rozmanité vstupy v evropském, latinskoamerickém a dalších tržních kontextech.
Společnost zasazuje SAM 3 do rámce toho, co nazývá Segment Anything CollectionRodina modelů, benchmarků a zdrojů určených k rozšíření vizuálního chápání umělé inteligence. Spuštění je doprovázeno novým benchmarkem pro segmentaci „otevřené slovní zásoby“, zaměřeným na měření rozsahu, v jakém systém dokáže porozumět téměř jakémukoli konceptu vyjádřenému v přirozeném jazyce.
Integrace s Edits, Vibes a dalšími Meta nástroji

Kromě technické složky již Meta začala integrovat SAM 3 do konkrétních produktů které jsou určeny pro každodenní použití. Jedním z prvních cílů budou Úpravy, jejich aplikace pro tvorbu a úpravu videa, kde je myšlenka taková, že uživatel může vybrat konkrétní osoby nebo objekty pomocí jednoduchého textového popisu a aplikovat efekty, filtry nebo změny pouze na tyto části záběrů.
Další cesta k integraci bude nalezena v Vibes v rámci aplikace Meta AI a platformy meta.aiV tomto prostředí bude segmentace textu kombinována s generativními nástroji k vytvoření nových editačních a kreativních zážitků, jako jsou například vlastní pozadí, pohyblivé efekty nebo selektivní úpravy fotografií určené pro sociální sítě, které jsou ve Španělsku a zbytku Evropy velmi populární.
Návrh společnosti je, aby se tyto schopnosti neomezovaly pouze na odborné studium, ale spíše dosahovaly... nezávislí tvůrci, malé agentury a pokročilí uživatelé kteří denně pracují s vizuálním obsahem. Možnost segmentovat scény psaním popisů v přirozeném jazyce zkracuje dobu učení ve srovnání s tradičními nástroji založenými na manuálních maskách a vrstvách.
Zároveň si Meta udržuje otevřený přístup vůči externím vývojářům, což naznačuje, že aplikace třetích stran – od editačních nástrojů až po řešení pro video analýzu v maloobchodě nebo zabezpečení – se mohou na SAM 3 spolehnout, pokud budou dodržovány zásady používání společnosti.
SAM 3D: Trojrozměrná rekonstrukce z jednoho snímku

Další velkou novinkou je SAM 3Dsystém navržený k výkonu trojrozměrné rekonstrukce vychází z 2D snímků. Místo nutnosti pořizovat více snímků z různých úhlů se model snaží vygenerovat spolehlivou 3D reprezentaci z jediné fotografie, což je obzvláště zajímavé pro ty, kteří nemají specializované skenovací vybavení nebo pracovní postupy.
SAM 3D se skládá ze dvou open-source modelů s odlišnými funkcemi: 3D objekty SAMzaměřený na rekonstrukci objektů a scén a SAM 3D tělo, zaměřený na odhad lidského tvaru a těla. Toto oddělení umožňuje přizpůsobit systém velmi různým případům použití, od produktových katalogů až po zdravotnické nebo sportovní aplikace.
Podle Mety označují 3D objekty SAM Nový výkonnostní standard v 3D rekonstrukci s umělou inteligencísnadno překonává předchozí metody v klíčových ukazatelích kvality. Pro důslednější vyhodnocení výsledků společnost spolupracovala s umělci na vytvoření SAM 3D Artist Objects, datové sady speciálně navržené pro posouzení věrnosti a detailů rekonstrukcí v široké škále obrázků a objektů.
Tento pokrok otevírá dveře k praktickým aplikacím v oblastech, jako je např. robotika, věda, sportovní medicína nebo digitální kreativitaNapříklad v robotice může systémům pomoci lépe pochopit objem objektů, se kterými interagují; v lékařském nebo sportovním výzkumu by mohla pomoci analyzovat držení těla a pohyb; a v kreativním designu slouží jako základ pro generování 3D modelů pro animace, videohry nebo imerzivní zážitky.
Jednou z prvních komerčních aplikací, které jsou již viditelné, je funkce Výhled z pokoje de Facebook Marketplacecož vám umožňuje vizualizovat, jak by kus nábytku nebo dekorativní předmět vypadal ve skutečné místnosti ještě před jeho koupí. Se SAM 3D, Meta se snaží tyto typy zážitků zdokonalit, což je velmi důležité pro evropský elektronický obchod, kde vrácení produktů z důvodu nenaplněných očekávání představuje rostoucí náklady.
Segment Anything Playground: prostředí pro experimentování

Aby si veřejnost mohla tyto funkce otestovat bez nutnosti cokoli instalovat, Meta povolila… Segment Anything PlaygroundJedná se o webovou platformu, která umožňuje nahrávat obrázky nebo videa a experimentovat se SAM 3 a SAM 3D přímo z prohlížeče. Myšlenka je taková, že každý, kdo se zajímá o vizuální umělou inteligenci, může prozkoumat, co je možné, bez jakýchkoli znalostí programování.
V případě SAM 3 umožňuje Playground segmentaci objektů pomocí krátké fráze nebo podrobné pokynyKombinace textu a v případě potřeby i vizuálních příkladů. To zjednodušuje běžné úkoly, jako je výběr osob, aut, zvířat nebo konkrétních prvků scény a aplikování specifických akcí na ně, od estetických efektů až po rozmazání nebo nahrazení pozadí.
Při práci se SAM 3D platforma umožňuje Prozkoumejte scény z nových perspektivměnit uspořádání objektů, aplikovat trojrozměrné efekty nebo generovat alternativní pohledy. Pro ty, kteří pracují v oblasti designu, reklamy nebo 3D obsahu, nabízí rychlý způsob, jak vytvářet prototypy nápadů, aniž by museli od začátku používat složité technické nástroje.
Hřiště zahrnuje také řadu připravené šablony Tyto funkce jsou zaměřeny na velmi specifické úkoly. Patří mezi ně praktické možnosti, jako je pixelizace obličejů nebo registračních značek z důvodu ochrany soukromí, a vizuální efekty, jako jsou stopy pohybu, selektivní zvýraznění nebo reflektory na zajímavých oblastech videa. Tyto typy funkcí se mohou obzvláště dobře hodit pro pracovní postupy tvůrců digitálních médií a obsahu ve Španělsku, kde je produkce krátkých videí a obsahu pro sociální média neustálá.
Otevřené zdroje pro vývojáře a výzkumníky

V souladu se strategií, kterou Meta sledovala v jiných verzích AI, se společnost rozhodla vydat významnou část technické zdroje spojené se SAM 3 a SAM 3DV první řadě byly zveřejněny váhy modelu, nový benchmark zaměřený na segmentaci otevřené slovní zásoby a technický dokument s podrobnostmi o jeho vývoji.
V případě SAM 3D jsou k dispozici následující možnosti: kontrolní body modelu, inferenční kód a datová sada pro vyhodnocení nové generace. Tato datová sada obsahuje značnou škálu obrázků a objektů, jejímž cílem je překročit rámec tradičních 3D referenčních bodů a poskytnout větší realismus a komplexnost, což může být velmi užitečné pro evropské výzkumné skupiny pracující v oblasti počítačového vidění a grafiky.
Společnost Meta také oznámila spolupráci s anotačními platformami, jako je Roboflow, s cílem umožnit vývojářům a firmám Zadejte vlastní data a upravte SAM 3 specifickým potřebám. To otevírá dveře k řešením specifickým pro daný sektor, od průmyslových inspekcí až po analýzu městské dopravy, včetně projektů kulturního dědictví, kde je důležité přesně segmentovat architektonické nebo umělecké prvky.
Volbou relativně otevřeného přístupu se společnost snaží zajistit, aby vývojářský ekosystém, univerzity a startupy – včetně těch, kteří působí ve Španělsku a zbytku Evropy – mohou s těmito technologiemi experimentovat, integrovat je do vlastních produktů a v konečném důsledku přispívat případy užití, které jdou nad rámec těch, které může Meta vyvíjet interně.
S programy SAM 3 a SAM 3D si Meta klade za cíl upevnit flexibilnější a přístupnější vizuální platforma umělé inteligencekde textově naváděná segmentace a 3D rekonstrukce z jednoho obrazu již nejsou funkcemi vyhrazenými pro vysoce specializované týmy. Potenciální dopad sahá od každodenní editace videa až po pokročilé aplikace ve vědě, průmyslu a elektronickém obchodování, v kontextu, kde se kombinace jazyka, počítačového vidění a kreativity stává standardním pracovním nástrojem a nikoli pouze technologickým příslibem.
Jsem technologický nadšenec, který ze svých „geekovských“ zájmů udělal profesi. Strávil jsem více než 10 let svého života používáním nejmodernějších technologií a vrtáním se všemi druhy programů z čisté zvědavosti. Nyní se specializuji na počítačovou techniku a videohry. Je to proto, že již více než 5 let píšu pro různé webové stránky o technologiích a videohrách a tvořím články, které se vám snaží poskytnout informace, které potřebujete, v jazyce, který je srozumitelný všem.
Pokud máte nějaké dotazy, mé znalosti sahají od všeho, co se týká operačního systému Windows a také Androidu pro mobilní telefony. A můj závazek je vůči vám, jsem vždy ochoten strávit pár minut a pomoci vám vyřešit jakékoli otázky, které můžete mít v tomto internetovém světě.