Meta presenta SAM 3 y SAM 3D: nueva generación de IA visual

Sasisho la mwisho: 27/11/2025

  • SAM 3 introduce segmentación de imágenes y vídeo guiada por texto y ejemplos visuales, con un vocabulario de millones de conceptos.
  • SAM 3D permite reconstruir objetos, escenas y cuerpos humanos en 3D a partir de una sola imagen, con modelos abiertos.
  • Los modelos se pueden probar sin conocimientos técnicos en Segment Anything Playground, con plantillas prácticas y creativas.
  • Meta libera pesos, puntos de control y nuevos benchmarks para que desarrolladores e investigadores de Europa y el resto del mundo integren estas capacidades en sus proyectos.
SAM 3D

Meta ha dado un nuevo paso en su apuesta por la inteligencia artificial aplicada a la visión por ordenador na lanzamiento de SAM 3 y SAM 3D, dos modelos que amplían la familia Segment Anything y que apuntan a cambiar la forma en que trabajamos con fotos y vídeos. Lejos de quedarse en un experimento de laboratorio, la compañía quiere que estas herramientas se utilicen tanto por profesionales como por usuarios sin perfil técnico.

Con esta nueva generación, Meta se centra en mejorar la detección y segmentación de objetos y en acercar la reconstrucción tridimensional a un público mucho más amplio. Desde la edición de vídeo hasta la visualización de productos para comercio electrónico en España y el resto de Europa, la compañía plantea un escenario en el que describir lo que se quiere hacer con palabras basta para que la IA haga gran parte del trabajo pesado.

Qué aporta SAM 3 frente a versiones anteriores

SAM 3 se sitúa como la evolución directa de los modelos de segmentación que Meta presentó en 2023 y 2024, conocidos como SAM 1 y SAM 2. Aquellas primeras versiones se centraban en identificar qué píxeles pertenecían a cada objeto, usando principalmente indicaciones visuales como puntos, cajas o máscaras, y en el caso de SAM 2, siguiendo objetos a lo largo de un vídeo casi en tiempo real.

La novedad clave ahora es que SAM 3 entiende prompts de texto ricos y precisos, no solo etiquetas generales. Mientras que antes se trabajaba con términos simples como “coche” o “autobús”, el nuevo modelo es capaz de responder a descripciones mucho más concretas, por ejemplo “autobús escolar amarillo” o “coche rojo aparcado en segunda fila”.

En la práctica, esto significa que basta con escribir algo como “gorra roja de béisbol” para que el sistema localice y separe todos los elementos que encajan con esa descripción dentro de una imagen o un vídeo. Esta capacidad de afinar con palabras resulta especialmente útil en contextos profesionales de edición, publicidad o análisis de contenido, donde a menudo hay que fijarse en detalles muy concretos.

Además, SAM 3 se ha diseñado para integrarse con modelos de lenguaje multimodales de gran tamaño. Esto permite ir más allá de frases sencillas y utilizar indicaciones complejas del tipo: “personas sentadas pero que no lleven una gorra roja” o “peatones que estén mirando hacia la cámara pero sin mochila”. Este tipo de instrucciones combinan condiciones y exclusiones que hasta hace poco eran difíciles de trasladar a una herramienta de visión por ordenador.

Maudhui ya kipekee - Bofya Hapa  Jinsi ya Kutumia Maono ya Copilot kwenye Ukingo: Vipengele na Vidokezo

Rendimiento y escala del modelo SAM 3

meta modelo SAM 3

Meta también ha querido destacar la parte menos visible pero crucial: el rendimiento técnico y la escala de conocimiento del modelo. Según los datos de la compañía, SAM 3 es capaz de procesar una sola imagen con más de cien objetos detectados en torno a 30 milisegundos usando una GPU H200, una velocidad muy cercana a lo que se necesita para flujos de trabajo exigentes.

En el caso del vídeo, la firma asegura que el sistema mantiene un rendimiento prácticamente en tiempo real cuando se trabaja con alrededor de cinco objetos simultáneos, lo que lo hace viable para tareas de seguimiento y segmentación de contenido en movimiento, desde clips cortos para redes sociales hasta proyectos de producción más ambiciosos.

Para lograr este comportamiento, Meta ha construido una base de entrenamiento con más de 4 millones de conceptos únicos, combinando anotadores humanos con otros modelos de IA que ayudan a etiquetar grandes volúmenes de datos. Esta mezcla de supervisión manual y automática busca equilibrar precisión y escala, algo clave para que el modelo responda bien a indicaciones variadas en contextos europeos, latinoamericanos u otros mercados.

La compañía enmarca SAM 3 dentro de lo que denomina Segment Anything Collection, una familia de modelos, benchmarks y recursos diseñada para ir ampliando la comprensión visual de la IA. El lanzamiento se acompaña de un nuevo punto de referencia para segmentación de “vocabulario abierto”, enfocado en medir hasta qué punto el sistema es capaz de entender casi cualquier concepto que se exprese en lenguaje natural.

Integración en Edits, Vibes y otras herramientas de Meta

editar vídeos 4K con Edits de Meta

Más allá del componente técnico, Meta ya ha empezado a integrar SAM 3 en productos concretos que apuntan a un uso cotidiano. Uno de los primeros destinos será Edits, su aplicación de creación y edición de vídeo, donde la idea es que el usuario pueda seleccionar personas u objetos específicos con una simple descripción en texto y aplicar efectos, filtros o cambios solo a esas partes del metraje.

Otra vía de integración se dará en Vibes, dentro de la app Meta AI y de la plataforma meta.ai. En este entorno, la segmentación por texto se combinará con herramientas generativas para crear nuevas experiencias de edición y creatividad, por ejemplo fondos personalizados, efectos de movimiento o modificaciones selectivas en fotos pensadas para redes sociales muy populares en España y el resto de Europa.

El planteamiento de la compañía es que estas capacidades no queden restringidas a estudios profesionales, sino que lleguen a creadores independientes, agencias pequeñas y usuarios avanzados que trabajan a diario con contenido visual. La posibilidad de segmentar escenas escribiendo descripciones en lenguaje natural reduce la curva de aprendizaje respecto a herramientas tradicionales basadas en máscaras manuales y capas.

Al mismo tiempo, Meta mantiene un discurso de apertura hacia desarrolladores externos, apuntando a que maombi ya mtu wa tatu -desde herramientas de edición hasta soluciones para análisis de vídeo en comercio minorista o seguridad- puedan apoyarse en SAM 3 siempre que se respeten las políticas de uso de la compañía.

Maudhui ya kipekee - Bofya Hapa  Ulinganisho: Windows 11 vs Linux Mint kwenye Kompyuta za zamani

SAM 3D: reconstrucción tridimensional desde una sola imagen

Cómo funciona SAM 3D

La otra gran novedad es SAM 3D, un sistema pensado para realizar reconstrucciones tridimensionales a partir de imágenes en 2D. En lugar de necesitar múltiples capturas desde distintos ángulos, el modelo aspira a generar una representación 3D fiable partiendo de una foto única, algo especialmente interesante para quienes no disponen de equipos o flujos de escaneado especializados.

SAM 3D se compone de dos modelos de código abierto con funciones diferenciadas: SAM 3D Objects, centrado en reconstruir objetos y escenas, y SAM 3D Body, orientado a estimar la forma y el cuerpo humanos. Esta separación permite adaptar el sistema a casos de uso muy distintos, desde catálogos de producto hasta aplicaciones de salud o deporte.

Según Meta, SAM 3D Objects marca un nuevo listón de rendimiento en reconstrucción 3D guiada por IA, superando con holgura métodos previos en métricas clave de calidad. Para poder evaluar los resultados de forma más rigurosa, la compañía ha trabajado con artistas en la creación de SAM 3D Artist Objects, un conjunto de datos específicamente diseñado para valorar la fidelidad y el detalle de las reconstrucciones en una gran variedad de imágenes y objetos.

Este avance abre la puerta a usos prácticos en áreas como la robótica, la ciencia, la medicina deportiva o la creatividad digital. Por ejemplo, en robótica puede facilitar que los sistemas entiendan mejor el volumen de los objetos con los que interactúan; en investigación médica o deportiva, podría ayudar a analizar la postura y el movimiento del cuerpo; y en diseño creativo, sirve como base para generar modelos 3D para animación, videojuegos o experiencias inmersivas.

Una de las primeras aplicaciones comerciales ya visibles es la función “View in Room” de Orodha ya Marketplace ya Facebook, que permite visualizar cómo quedaría un mueble u objeto de decoración en una habitación real antes de comprarlo. Con SAM 3D, Meta busca perfeccionar este tipo de experiencias, muy relevantes para el comercio electrónico europeo, donde la devolución de productos por expectativas no cumplidas supone un coste creciente.

Jinsi ya kubadilisha watu na vitu kuwa modeli za 3D na SAM 3D
Nakala inayohusiana:
Badilisha watu na vitu kuwa 3D kwa kutumia Meta's SAM 3 na SAM 3D

Segment Anything Playground: un entorno para experimentar

Sehemu yoyote Uwanja wa michezo

Para que el público pueda probar estas capacidades sin instalar nada, Meta ha habilitado el Sehemu yoyote Uwanja wa michezo, una plataforma web que permite cargar imágenes o vídeos y experimentar con SAM 3 y SAM 3D directamente desde el navegador. La idea es que cualquier persona con curiosidad por la IA visual pueda explorar qué se puede hacer sin conocimientos de programación.

En el caso de SAM 3, el Playground permite segmentar objetos usando frases cortas o indicaciones detalladas, combinando texto y, si se desea, ejemplos visuales. Esto facilita tareas habituales como seleccionar personas, coches, animales o elementos específicos de la escena y aplicarles acciones concretas, desde efectos estéticos hasta desenfoques o sustitución de fondos.

Maudhui ya kipekee - Bofya Hapa  Jinsi ya kutumia Microsoft Designer kuboresha miradi yako ya ubunifu

Cuando se trabaja con SAM 3D, la plataforma hace posible explorar escenas desde nuevas perspectivas, reorganizar objetos, aplicar efectos tridimensionales o generar vistas alternativas. Para quienes se dedican al diseño, la publicidad o el contenido 3D, supone una forma rápida de prototipar ideas sin tener que pasar por herramientas técnicas complejas desde el primer minuto.

El Playground también incluye una serie de templeti zilizo tayari kutumika orientadas a tareas muy concretas. Entre ellas, opciones prácticas como pixelar rostros o matrículas por motivos de privacidad, y efectos visuales como estelas de movimiento, resaltes selectivos o focos de luz sobre zonas de interés del vídeo. Este tipo de funciones pueden encajar especialmente bien en flujos de trabajo de medios digitales y creadores de contenido en España, donde la producción de vídeos cortos y piezas para redes es constante.

Recursos abiertos para desarrolladores e investigadores

Ejemplos SAM 3D Meta

En línea con la estrategia que Meta ha seguido en otros lanzamientos de IA, la compañía ha decidido liberar una parte importante de los recursos técnicos asociados a SAM 3 y SAM 3D. Para el primero, se han hecho públicos los pesos del modelo, un nuevo benchmark orientado a la segmentación de vocabulario abierto y un documento técnico detallando su desarrollo.

En el caso de SAM 3D, están disponibles los puntos de control del modelo, el código de inferencia y un conjunto de datos de evaluación de nueva generación. Este dataset incluye una variedad considerable de imágenes y objetos que pretende ir más allá de los puntos de referencia 3D tradicionales, aportando mayor realismo y complejidad, algo que puede resultar muy útil para grupos de investigación europeos que trabajan en visión por ordenador y gráficos.

Meta también ha anunciado colaboraciones con plataformas de anotación como Roboflow, con el objetivo de que desarrolladores y empresas puedan anotar sus propios datos y ajustar SAM 3 a necesidades específicas. Esto abre la puerta a soluciones sectoriales, desde inspección industrial hasta análisis de tráfico urbano, pasando por proyectos de patrimonio cultural en los que sea importante segmentar con precisión elementos arquitectónicos o artísticos.

Al apostar por un enfoque relativamente abierto, la compañía busca que el ecosistema de desarrolladores, universidades y startups -incluidas las que operan en España y en el resto de Europa- pueda experimentar con estas tecnologías, integrarlas en productos propios y, en última instancia, aportar casos de uso que vayan más allá de los que Meta puede desarrollar internamente.

Con SAM 3 y SAM 3D, Meta pretende consolidar una plataforma de IA visual más flexible y accesible, en la que la segmentación guiada por texto y la reconstrucción 3D a partir de una sola imagen dejen de ser capacidades reservadas a equipos altamente especializados. El impacto potencial se extiende desde la edición de vídeo cotidiana hasta aplicaciones avanzadas en ciencia, industria o comercio electrónico, en un contexto en el que la combinación de lenguaje, visión por ordenador y creatividad empieza a ser una herramienta de trabajo habitual y no solo una promesa tecnológica.