- SAM 3 introduce a segmentación de imaxes e vídeos guiada por texto e exemplos visuais, cun vocabulario de millóns de conceptos.
- SAM 3D permíteche reconstruír obxectos, escenas e corpos humanos en 3D a partir dunha única imaxe, empregando modelos abertos.
- Os modelos pódense probar sen coñecementos técnicos en Segment Anything Playground, con modelos prácticos e creativos.
- Meta publica pesos, puntos de control e novos puntos de referencia para que os desenvolvedores e investigadores de Europa e do resto do mundo poidan integrar estas capacidades nos seus proxectos.
Meta deu un paso máis no seu compromiso coa intelixencia artificial aplicada á visión por computador co lanzamento do SAM 3 e do SAM 3D, dous modelos que amplían a familia Segment Anything e que Pretenden cambiar a forma en que traballamos con fotos e vídeosLonxe de seguir sendo un experimento de laboratorio, a empresa quere que estas ferramentas sexan empregadas tanto por profesionais como por usuarios sen coñecementos técnicos.
Con esta nova xeración, Meta céntrase en mellorar a detección e segmentación de obxectos e ao traer o reconstrución tridimensional para un público moito máis amploDesde a edición de vídeo ata a visualización de produtos para o comercio electrónico en España e no resto de Europa, a empresa prevé un escenario no que Simplemente describir o que queres facer con palabras é suficiente para que a IA faga a maior parte do traballo pesado..
Que ofrece SAM 3 en comparación coas versións anteriores?
O SAM 3 está posicionado como a evolución directa dos modelos de segmentación que Meta presentou en 2023 e 2024, coñecidos como SAM 1 e SAM 2. Esas primeiras versións centrábanse en identificar que píxeles pertencían a cada obxecto, principalmente mediante pistas visuais como puntos, caixas ou máscaras, e no caso de SAM 2, seguindo obxectos ao longo dun vídeo case en tempo real.
O novo desenvolvemento clave agora é que SAM 3 entende indicacións de texto ricas e precisasnon só etiquetas xerais. Mentres que antes se usaban termos simples como "coche" ou "autobús", o novo modelo é capaz de responder a descricións moito máis específicas, por exemplo, "autobús escolar amarelo" ou "coche vermello aparcado en dobre fila".
Na práctica, isto significa que abonda con escribir algo así como "gorra de béisbol vermella" para que o sistema poida localizar e separar todos os elementos que se axustan a esa descrición dentro dunha imaxe ou vídeo. Esta capacidade de refinar con palabras é especialmente útil en contextos de edición profesional, publicidade ou análise de contidos, onde a miúdo hai que fixarse en detalles moi específicos.
Ademais, o SAM 3 foi deseñado para integrarse con grandes modelos de linguaxe multimodalIsto permíteche ir máis alá de frases sinxelas e usar instrucións complexas como: "Xente sentada pero sen gorro vermello" ou «peóns que miran á cámara pero sen mochila». Este tipo de instrucións combina condicións e exclusións que ata hai pouco eran difíciles de traducir a unha ferramenta de visión por computador.
Rendemento e escala do modelo SAM 3

Meta tamén quería destacar a parte menos visible pero crucial: a escala de coñecemento e rendemento técnico do modelo. Segundo os datos da empresa, o SAM 3 é capaz de procesar unha única imaxe con máis de cen obxectos detectados en arredor de 30 milisegundos usando unha GPU H200, unha velocidade moi próxima á necesaria para fluxos de traballo esixentes.
No caso do vídeo, a empresa garante que o sistema mantén o rendemento practicamente en tempo real ao traballar con uns cinco obxectos simultáneos, o que fai viable o seguimento e a segmentación de contido en movemento, desde clips curtos de redes sociais ata proxectos de produción máis ambiciosos.
Para lograr este comportamento, Meta construíu unha base de adestramento con máis de 4 millóns de conceptos únicosCombinando anotadores humanos con modelos de IA para axudar a etiquetar grandes volumes de datos, esta mestura de supervisión manual e automatizada ten como obxectivo equilibrar a precisión e a escala, clave para garantir que o modelo responda ben a diversas entradas en contextos de mercado europeos, latinoamericanos e outros.
A empresa enmarca o SAM 3 dentro do que denomina Colección Segment AnythingUnha familia de modelos, puntos de referencia e recursos deseñados para ampliar a comprensión visual da IA. O lanzamento vai acompañado dun novo punto de referencia para a segmentación de "vocabulario aberto", centrado en medir ata que punto o sistema pode comprender case calquera concepto expresado en linguaxe natural.
Integración con Edits, Vibes e outras ferramentas Meta

Máis alá do compoñente técnico, Meta xa comezou a integrar SAM 3 en produtos específicos que están destinados ao uso diario. Un dos primeiros destinos serán Edicións, a súa aplicación de creación e edición de vídeo, onde a idea é que o usuario poida seleccionar persoas ou obxectos específicos cunha simple descrición de texto e aplicar efectos, filtros ou cambios só a esas partes da gravación.
Outra vía de integración atoparase en Vibes, dentro da aplicación Meta AI e da plataforma meta.aiNeste entorno, a segmentación de texto combinarase con ferramentas xerativas para crear novas experiencias de edición e creativas, como fondos personalizados, efectos de movemento ou modificacións selectivas de fotos deseñadas para redes sociais que son moi populares en España e no resto de Europa.
A proposta da empresa é que estas capacidades non se limiten a estudos profesionais, senón que cheguen a... creadores independentes, pequenas axencias e usuarios avanzados que traballan a diario con contido visual. A capacidade de segmentar escenas escribindo descricións en linguaxe natural reduce a curva de aprendizaxe en comparación coas ferramentas tradicionais baseadas en máscaras e capas manuais.
Ao mesmo tempo, Meta mantén unha actitude aberta cara aos desenvolvedores externos, o que suxire que aplicacións de terceiros -desde ferramentas de edición ata solucións para a análise de vídeo no comercio minorista ou na seguridade- poden confiar en SAM 3 sempre que se respecten as políticas de uso da empresa.
SAM 3D: Reconstrución tridimensional a partir dunha única imaxe

A outra gran noticia é SAM 3Dun sistema deseñado para realizar reconstrucións tridimensionais partindo de imaxes 2D. En lugar de precisar varias capturas desde diferentes ángulos, o modelo pretende xerar unha representación 3D fiable a partir dunha única foto, algo especialmente interesante para aqueles que non dispoñen de equipos de dixitalización ou fluxos de traballo especializados.
SAM 3D consta de dous modelos de código aberto con funcións distintas: Obxectos 3D SAMcentrada na reconstrución de obxectos e escenas, e Corpo 3D do SAM, orientado á estimación da forma e o corpo humanos. Esta separación permite adaptar o sistema a casos de uso moi diferentes, desde catálogos de produtos ata aplicacións sanitarias ou deportivas.
Segundo Meta, SAM 3D Objects marca un Novo punto de referencia de rendemento na reconstrución 3D guiada por IAsuperando facilmente os métodos anteriores en métricas clave de calidade. Para avaliar os resultados de forma máis rigorosa, a empresa traballou con artistas para crear SAM 3D Artist Objects, un conxunto de datos deseñado especificamente para avaliar a fidelidade e o detalle das reconstrucións nunha ampla variedade de imaxes e obxectos.
Este avance abre a porta a aplicacións prácticas en áreas como robótica, ciencia, medicina deportiva ou creatividade dixitalPor exemplo, en robótica pode axudar aos sistemas a comprender mellor o volume dos obxectos cos que interactúan; na investigación médica ou deportiva, podería axudar a analizar a postura e o movemento corporal; e no deseño creativo, serve como base para xerar modelos 3D para animación, videoxogos ou experiencias inmersivas.
Unha das primeiras aplicacións comerciais xa visibles é a función "Vista na habitación" de Marketplace de Facebooko que che permite visualizar como quedaría un moble ou obxecto decorativo nunha habitación real antes de mercalo. Con SAM 3D, Meta busca perfeccionar este tipo de experiencias, moi relevante para o comercio electrónico europeo, onde a devolución de produtos debido a expectativas non cumpridas representa un custo crecente.
Segment Anything Playground: un ambiente para experimentar

Para permitir que o público probe estas capacidades sen instalar nada, Meta habilitou a Segmentar calquera cousa no parque infantilÉ unha plataforma web que che permite subir imaxes ou vídeos e experimentar con SAM 3 e SAM 3D directamente desde o teu navegador. A idea é que calquera persoa que teña curiosidade pola IA visual poida explorar o que é posible sen ningún coñecemento de programación.
No caso de SAM 3, o Playground permite segmentar obxectos usando frases curtas ou instrucións detalladasCombinando texto e, se se desexa, exemplos visuais. Isto simplifica tarefas comúns como seleccionar persoas, coches, animais ou elementos específicos da escena e aplicarlles accións específicas, desde efectos estéticos ata desenfoque ou substitución de fondo.
Ao traballar con SAM 3D, a plataforma fai posible Explora escenas desde novas perspectivasreorganizar obxectos, aplicar efectos tridimensionais ou xerar vistas alternativas. Para aqueles que traballan en deseño, publicidade ou contido 3D, ofrece unha forma rápida de crear prototipos de ideas sen ter que usar ferramentas técnicas complexas desde o principio.
O parque infantil tamén inclúe unha serie de modelos listos para usar Estas funcionalidades están orientadas a tarefas moi específicas. Inclúen opcións prácticas como pixelar rostros ou matrículas por motivos de privacidade e efectos visuais como rastros de movemento, realces selectivos ou focos en áreas de interese no vídeo. Este tipo de funcións poden ser especialmente axeitadas para os fluxos de traballo dos creadores de contidos e medios dixitais en España, onde a produción de vídeos curtos e contido para redes sociais é constante.
Recursos abertos para desenvolvedores e investigadores

En liña coa estratexia que Meta seguiu noutras versións de IA, a empresa decidiu lanzar unha parte significativa do recursos técnicos asociados con SAM 3 e SAM 3DPara o primeiro, fixéronse públicos os pesos do modelo, un novo punto de referencia centrado na segmentación de vocabulario aberto e un documento técnico que detalla o seu desenvolvemento.
No caso de SAM 3D, están dispoñibles o seguinte: puntos de control do modelo, código de inferencia e un conxunto de datos de avaliación próxima xeración. Este conxunto de datos inclúe unha variedade considerable de imaxes e obxectos que pretenden ir máis alá dos puntos de referencia 3D tradicionais, proporcionando un maior realismo e complexidade, algo que pode ser moi útil para os grupos de investigación europeos que traballan en visión por computador e gráficos.
Meta tamén anunciou colaboracións con plataformas de anotación como Roboflow, co obxectivo de permitir que os desenvolvedores e as empresas... Introduza os seus propios datos e axuste SAM 3 a necesidades específicas. Isto abre a porta a solucións específicas para cada sector, desde a inspección industrial ata a análise do tráfico urbano, incluíndo proxectos de patrimonio cultural onde é importante segmentar con precisión elementos arquitectónicos ou artísticos.
Ao optar por unha estratexia relativamente aberta, a empresa busca garantir que o ecosistema de desenvolvedores, universidades e empresas emerxentes -incluídas as que operan en España e no resto de Europa- poden experimentar con estas tecnoloxías, integralas nos seus propios produtos e, en definitiva, achegar casos de uso que van máis alá dos que Meta pode desenvolver internamente.
Con SAM 3 e SAM 3D, Meta pretende consolidar unha plataforma de IA visual máis flexible e accesibleonde a segmentación guiada por texto e a reconstrución 3D a partir dunha única imaxe xa non son capacidades reservadas para equipos altamente especializados. O impacto potencial esténdese desde a edición de vídeo cotiá ata aplicacións avanzadas na ciencia, a industria e o comercio electrónico, nun contexto onde a combinación de linguaxe, visión por computador e creatividade se está a converter nunha ferramenta de traballo estándar e non só nunha promesa tecnolóxica.
Son un entusiasta da tecnoloxía que converteu os seus intereses "friki" nunha profesión. Levo máis de 10 anos da miña vida empregando tecnoloxía de punta e retocando todo tipo de programas por pura curiosidade. Agora especializeime en tecnoloxía informática e videoxogos. Isto débese a que dende hai máis de 5 anos levo escribindo para diversas webs sobre tecnoloxía e videoxogos, creando artigos que buscan darche a información que necesitas nun idioma comprensible para todos.
Se tes algunha dúbida, os meus coñecementos abarcan dende todo o relacionado co sistema operativo Windows e tamén con Android para teléfonos móbiles. E o meu compromiso é contigo, sempre estou disposto a dedicar uns minutos e axudarche a resolver calquera dúbida que teñas neste mundo de internet.