Meta представя SAM 3 и SAM 3D: ново поколение визуален изкуствен интелект

Последна актуализация: 27/11/2025

  • SAM 3 въвежда сегментиране на изображения и видео, водено от текстови и визуални примери, с речник от милиони концепции.
  • SAM 3D ви позволява да реконструирате обекти, сцени и човешки тела в 3D от едно изображение, използвайки отворени модели.
  • Моделите могат да бъдат тествани без технически познания в Segment Anything Playground, с практични и креативни шаблони.
  • Meta публикува тегла, контролни точки и нови бенчмаркове, така че разработчиците и изследователите в Европа и останалата част от света да могат да интегрират тези възможности в своите проекти.
САМ 3D

Мета направи още една стъпка в ангажимента си към изкуствен интелект, приложен към компютърното зрение с Стартирането на SAM 3 и SAM 3D, два модела, които разширяват семейството Segment Anything и че Те целят да променят начина, по който работим със снимки и видеоклиповеДалеч от това да остане лабораторен експеримент, компанията иска тези инструменти да се използват както от професионалисти, така и от потребители без технически познания.

С това ново поколение, Meta се фокусира върху подобряване на откриването и сегментирането на обекти и при довеждането на триизмерна реконструкция за много по-широка аудиторияОт видео монтаж до визуализация на продукти за електронна търговия в Испания и останалата част от Европа, компанията предвижда сценарий, в който Простото описание с думи на това, което искате да направите, е достатъчно, за да може изкуственият интелект да свърши по-голямата част от тежката работа..

Какво предлага SAM 3 в сравнение с предишните версии?

SAM 3 е позициониран като директна еволюция от моделите за сегментиране, представени от Meta през 2023 и 2024 г., известни като SAM 1 и SAM 2. Тези ранни версии се фокусираха върху идентифицирането на пикселите, принадлежащи на всеки обект, главно използвайки визуални сигнали като точки, кутии или маски, а в случая на SAM 2 - проследяване на обекти в цялото видео почти в реално време.

Ключовото ново развитие сега е, че SAM 3 разбира богати и точни текстови подканине само общи етикети. Докато преди се използваха прости термини като „кола“ или „автобус“, новият модел е способен да отговаря на много по-специфични описания, например „жълт училищен автобус“ или „червена кола, паркирана двойно“.

На практика това означава, че е достатъчно да напишете нещо подобно „червена бейзболна шапка“ така че системата да може да локализира и раздели всички елементи, които отговарят на това описание в изображение или видеоклип. Тази способност за прецизиране с думи е особено полезна в професионални редакционни контексти, реклама или анализ на съдържание, където често се налага да разглеждате много специфични детайли.

Освен това, SAM 3 е проектиран да се интегрира с големи мултимодални езикови моделиТова ви позволява да използвате не само прости фрази, но и сложни инструкции, като например: „Хора, седнали, но не носещи червена шапка“ или „пешеходци, които гледат камерата, но без раница“. Този тип инструкции съчетават условия и изключения, които доскоро бяха трудни за преобразуване в инструмент за компютърно зрение.

Изключително съдържание - Щракнете тук  Как да почистите папката WinSxS, без да нарушавате актуализациите на Windows

Производителност и мащаб на модела SAM 3

Метамодел на SAM 3

Мета също искаше да подчертае по-малко видимата, но важна част: скала за техническа производителност и знания на модела. Според данните на компанията, SAM 3 е способен да обработи едно изображение с повече от сто засечени обекта за около 30 милисекунди, използвайки графичен процесор H200, скорост, много близка до необходимата за взискателни работни процеси.

В случая с видеото, фирмата гарантира, че системата поддържа производителност виртуално в реално време при работа с около пет едновременни обекта, което го прави подходящ за проследяване и сегментиране на движещо се съдържание, от кратки клипове в социалните медии до по-амбициозни производствени проекти.

За да постигне това поведение, Meta е изградила тренировъчна база с повече от 4 милиона уникални концепцииКомбинирайки човешки анотатори с модели с изкуствен интелект, за да се подпомогне етикетирането на големи обеми от данни, тази комбинация от ръчен и автоматизиран надзор има за цел да балансира точността и мащаба – ключово за гарантиране, че моделът реагира добре на разнообразни входни данни в европейски, латиноамерикански и други пазарни контексти.

Компанията очертава SAM 3 в рамките на това, което нарича Сегментиране на колекция от всякакви продуктиСемейство от модели, бенчмаркове и ресурси, предназначени да разширят визуалното разбиране на ИИ. Стартирането е съпроводено с нов бенчмарк за сегментиране по „отворен речник“, фокусиран върху измерване на степента, до която системата може да разбере почти всяка концепция, изразена на естествен език.

Интеграция с Edits, Vibes и други Meta инструменти

Редактирайте 4K видеоклипове с Meta Edits

Отвъд техническия компонент, Мета вече е започнала да интегриране на SAM 3 в специфични продукти които са предназначени за ежедневна употреба. Една от първите дестинации ще бъде „Редакции“, тяхното приложение за създаване и редактиране на видео, където идеята е потребителят да може да избира конкретни хора или обекти с просто текстово описание и да прилага ефекти, филтри или промени само към тези части от кадрите.

Друг път за интеграция ще бъде намерен в Vibes, в приложението Meta AI и платформата meta.aiВ тази среда сегментирането на текст ще бъде комбинирано с генеративни инструменти за създаване на нови редакторски и творчески преживявания, като например персонализирани фонове, ефекти на движение или селективни модификации на снимки, предназначени за социални мрежи, които са много популярни в Испания и останалата част от Европа.

Предложението на компанията е тези възможности да не се ограничават до професионални изследвания, а по-скоро да достигнат... независими творци, малки агенции и напреднали потребители които работят ежедневно с визуално съдържание. Възможността за сегментиране на сцени чрез писане на описания на естествен език намалява кривата на обучение в сравнение с традиционните инструменти, базирани на ръчни маски и слоеве.

В същото време Meta поддържа отворен подход към външни разработчици, което предполага, че приложения на трети страни - от инструменти за редактиране до решения за видео анализи в търговията на дребно или сигурността - могат да разчитат на SAM 3, стига да се спазват правилата за ползване на компанията.

Изключително съдържание - Щракнете тук  GPT-5.2 Copilot: как новият модел OpenAI е интегриран в работните инструменти

SAM 3D: Триизмерна реконструкция от едно изображение

Как работи SAM 3D

Другата голяма новина е САМ 3Dсистема, проектирана да изпълнява триизмерни реконструкции започвайки от 2D изображения. Вместо да са необходими множество заснемания от различни ъгли, моделът има за цел да генерира надеждно 3D представяне от една снимка, нещо особено интересно за тези, които нямат специализирано оборудване за сканиране или работни процеси.

SAM 3D се състои от два модела с отворен код с различни функции: SAM 3D обектифокусирани върху реконструкцията на обекти и сцени, и SAM 3D тяло, насочена към оценка на човешката форма и тяло. Това разделение позволява системата да бъде адаптирана към много различни случаи на употреба, от продуктови каталози до здравни или спортни приложения.

Според Meta, SAM 3D Objects маркира a Нов бенчмарк за производителност при 3D реконструкция, ръководена от изкуствен интелектлесно надминавайки предишните методи по ключови показатели за качество. За да оцени по-стриктно резултатите, компанията е работила с художници, за да създаде SAM 3D Artist Objects – набор от данни, специално разработен за оценка на прецизността и детайлността на реконструкциите в голямо разнообразие от изображения и обекти.

Този напредък отваря вратата за практически приложения в области като роботика, наука, спортна медицина или дигитално творчествоНапример, в роботиката може да помогне на системите да разберат по-добре обема на обектите, с които взаимодействат; в медицинските или спортните изследвания може да помогне за анализа на стойката и движението на тялото; а в креативния дизайн служи като основа за генериране на 3D модели за анимация, видеоигри или завладяващи преживявания.

Едно от първите видими търговски приложения е функцията „Изглед в стаята“ de Facebook Marketplaceкоето ви позволява да визуализирате как би изглеждала мебел или декоративен предмет в реална стая, преди да го купите. Със SAM 3D, Мета се стреми да усъвършенства този тип преживявания, изключително актуално за европейската електронна търговия, където връщането на продукти поради неосъществени очаквания представлява нарастващ разход.

Как да конвертирате хора и обекти в 3D модели със SAM 3D
Свързана статия:
Преобразувайте хора и обекти в 3D с Meta's SAM 3 и SAM 3D

Segment Anything Playground: среда за експериментиране

Сегментирайте всякаква детска площадка

За да може обществеността да тества тези възможности, без да инсталира нищо, Meta е активирала Сегментирайте всякаква детска площадкаТова е уеб платформа, която ви позволява да качвате изображения или видеоклипове и да експериментирате със SAM 3 и SAM 3D директно от вашия браузър. Идеята е всеки, който се интересува от визуален изкуствен интелект, да може да изследва какво е възможно без никакви познания по програмиране.

В случая на SAM 3, Playground позволява сегментиране на обекти, използвайки кратки фрази или подробни инструкцииКомбиниране на текст и, ако е необходимо, визуални примери. Това опростява често срещани задачи, като например избиране на хора, автомобили, животни или специфични елементи от сцената и прилагане на специфични действия към тях, от естетически ефекти до размазване или подмяна на фон.

Изключително съдържание - Щракнете тук  Lenovo представя своите AI очила Visual AI Glasses V1

При работа със SAM 3D, платформата прави възможно Разгледайте сцени от нови перспективипренареждайте обекти, прилагайте триизмерни ефекти или генерирайте алтернативни изгледи. За тези, които работят в областта на дизайна, рекламата или 3D съдържанието, той предлага бърз начин за създаване на прототипи на идеи, без да се налага да използват сложни технически инструменти от самото начало.

Детската площадка включва и серия от Готови за употреба шаблони Тези функции са насочени към много специфични задачи. Те включват практични опции като пикселизиране на лица или регистрационни номера от съображения за поверителност, както и визуални ефекти като следи от движение, селективни акценти или прожектори върху области от интерес във видеото. Този тип функции могат да бъдат особено подходящи за работните процеси на създателите на дигитални медии и съдържание в Испания, където производството на кратки видеоклипове и съдържание за социални медии е постоянно.

Отворени ресурси за разработчици и изследователи

Примери за мета данни в SAM 3D

В съответствие със стратегията, която Meta следва в други издания на AI, компанията реши да пусне значителна част от технически ресурси, свързани със SAM 3 и SAM 3DЗа първото са публикувани теглата на модела, нов бенчмарк, фокусиран върху сегментирането на отворен речник, и технически документ, описващ подробно неговото разработване.

В случая на SAM 3D са налични следните опции: контролни точки на модела, код за извод и набор от данни за оценка следващо поколение. Този набор от данни включва значително разнообразие от изображения и обекти, чиято цел е да надхвърли традиционните 3D референтни точки, осигурявайки по-голям реализъм и сложност, нещо, което може да бъде много полезно за европейски изследователски групи, работещи в областта на компютърното зрение и графиката.

Meta също така обяви сътрудничество с платформи за анотации като Roboflow, с цел да даде възможност на разработчиците и компаниите да Въведете свои собствени данни и настройте SAM 3 към специфични нужди. Това отваря вратата към специфични за сектора решения, от промишлена инспекция до анализ на градския трафик, включително проекти за културно наследство, където е важно точното сегментиране на архитектурните или художествените елементи.

Избирайки относително отворен подход, компанията се стреми да гарантира, че екосистемата на разработчиците, университети и стартиращи компании - включително тези, работещи в Испания и останалата част на Европа - могат да експериментират с тези технологии, да ги интегрират в собствените си продукти и в крайна сметка да допринесат със случаи на употреба, които надхвърлят тези, които Meta може да разработи вътрешно.

Със SAM 3 и SAM 3D, Meta се стреми да консолидира по-гъвкава и достъпна визуална платформа с изкуствен интелекткъдето сегментирането с текстово насочване и 3D реконструкцията от едно изображение вече не са възможности, запазени за високоспециализирани екипи. Потенциалното въздействие се простира от ежедневното редактиране на видео до напреднали приложения в науката, индустрията и електронната търговия, в контекст, където комбинацията от език, компютърно зрение и креативност се превръща в стандартен работен инструмент, а не просто в технологично обещание.