MAI-Image-2: así es el nuevo modelo de imágenes de Microsoft

MAI-Image-2 se sitúa ya entre los tres mejores modelos de texto a imagen según Arena.ai
Mejora el fotorrealismo, el manejo de escenas complejas y la generación de texto en las imágenes
Su despliegue comienza en MAI Playground, Copilot y Bing Image Creator, aunque España queda fuera por ahora
Microsoft busca reducir su dependencia de OpenAI y ganar peso como desarrollador propio de modelos de IA

La nueva ola de modelos de inteligencia artificial para generar imágenes vive una competición intensa, y la última jugada llega de la mano de Microsoft. La compañía ha presentado MAI-Image-2, una evolución que no solo busca impresionar visualmente, sino convertirse en una herramienta práctica para estudios creativos, agencias y profesionales que necesitan resultados consistentes y aprovechables, no solo imágenes llamativas para enseñar en redes.

Con esta segunda generación, Microsoft intenta dar un salto de categoría en un terreno dominado hasta ahora por Google y OpenAI. Según los últimos datos publicados por Arena.ai, MAI-Image-2 se ha colado ya en el podio de modelos de texto a imagen, hasta la tercera posición, un cambio notable respecto al debut de MAI-Image-1, que arrancó en la parte baja del top 10. El movimiento deja claro que la empresa quiere dejar de ser vista solo como revendedora de tecnología ajena y empezar a competir con producto propio.

Qué es MAI-Image-2 y qué aporta frente a la primera versión

MAI-Image-2 es el nuevo modelo de generación de imágenes por IA desarrollado de forma interna por Microsoft, apenas cinco meses después del lanzamiento de MAI-Image-1. Aunque la compañía ya ofrecía generación de imágenes a través de DALL·E y otros modelos de OpenAI, esta vez apuesta por su propio sistema de texto a imagen, entrenado con el apoyo directo de fotógrafos, diseñadores y narradores visuales.

La prioridad en esta revisión pasa por un fotorrealismo mucho más convincente: se ha trabajado la iluminación natural, la representación de materiales, la textura de las superficies y, especialmente, los tonos de piel. La idea es que las imágenes de personas y entornos cotidianos resulten más creíbles y requieran menos retoque posterior, algo clave para campañas de marketing, publicidad o contenido corporativo.

Otro foco central ha sido la coherencia interna de las escenas complejas. El modelo ahora maneja mejor composiciones con muchos elementos, escenarios cinematográficos y conceptos surrealistas o abstractos, manteniendo proporciones correctas, profundidad bien resuelta y relaciones espaciales razonables, puntos en los que muchos modelos siguen fallando cuando se les complica el prompt.

La propia Microsoft subraya que estas mejoras no llegan por casualidad: el equipo de IA ha iterado a partir de comentarios directos de profesionales creativos, que reclamaban menos “efecto demo” y más fiabilidad en proyectos reales. El resultado es un modelo que intenta equilibrar espectacularidad visual y utilidad práctica, dos objetivos que no siempre van de la mano en este campo.

Fotorrealismo, escenas complejas y texto en la propia imagen

Uno de los puntos donde MAI-Image-2 destaca con mayor claridad es en la calidad del fotorrealismo. En pruebas con escenas cotidianas, retratos o entornos urbanos, el modelo demuestra un buen control de la luz ambiental, el contraste y la profundidad de campo, entregando imágenes que se acercan a lo que cabría esperar de una cámara full-frame bien configurada más que de una ilustración generada por IA.

Este avance también se aprecia en escenas de alta complejidad. Prompts llenos de detalles —con múltiples objetos, condiciones de iluminación exigentes o entornos arquitectónicos complicados— se resuelven con un nivel de detalle elevado: proporciones corporales más naturales, extremidades bien colocadas, perspectiva coherente y una lectura general de la escena que convence incluso cuando se fuerzan situaciones irreales.

Contenido exclusivo - Clic Aquí Zencoder revoluciona el desarrollo de software con 'Coffee Mode' y agentes AI integrados

El otro gran eje de mejora es la generación de texto integrado en la imagen. Tradicionalmente, la mayoría de modelos tropiezan al crear carteles, rótulos, señalética o infografías con tipografías legibles y palabras correctas. MAI-Image-2 da un paso importante aquí: maneja bloques de texto más largos, distintos estilos tipográficos y maquetaciones complejas con bastante más acierto de lo habitual, lo que resulta especialmente útil para creativos que diseñan anuncios, portadas, diapositivas o piezas informativas.

Incluso con texto multilingüe, el comportamiento es razonablemente sólido, aunque no perfecto. En pruebas con caracteres no latinos, como hanzi chinos, es capaz de aproximarse a la forma correcta, aunque todavía se aprecian errores. Aun así, el mero hecho de que el modelo lo intente con cierto éxito ya apunta a un entrenamiento orientado a casos de uso más globales.

En el plano estilístico, MAI-Image-2 muestra una buena comprensión de indicaciones artísticas en los prompts. Puede alternar entre un estilo fotográfico sobrio, una estética de diseño gráfico más plana o una ilustración de corte más artístico, adaptando la composición y la paleta en consecuencia. Esto le da margen para moverse con soltura entre piezas de branding, moodboards, cartelería o conceptos visuales más experimentales.

El papel de Microsoft en el ranking global: tercera plaza y mucha presión

En términos de posicionamiento, Microsoft ha querido destacar desde el primer momento un dato concreto: MAI-Image-2 se sitúa ya en el puesto número 3 del ranking de Arena.ai, uno de los benchmarks más citados en el ámbito de texto a imagen. La comparación cobra relevancia si se recuerda que MAI-Image-1 debutó alrededor del noveno lugar, aún lejos de los grandes referentes.

Que este nuevo modelo haya escalado hasta el podio implica que solo los modelos de Google y OpenAI se mantienen por delante, mientras que soluciones de empresas como Bytedance, Grok u otros actores especializados quedan por detrás. Para una compañía que hasta hace poco apenas tenía presencia en el terreno de la generación de imágenes, no deja de ser un cambio de ritmo notable.

Ahora bien, esa tercera plaza también deja ver las tensiones internas en la estrategia de la compañía. Microsoft lleva años invirtiendo sumas millonarias en OpenAI para nutrir Copilot y otros productos, y al mismo tiempo ha apostado por colaborar con otros laboratorios como Anthropic. Con MAI-Image-2, intenta reducir la dependencia de modelos de terceros y reforzar su posición como desarrollador de referencia, no solo como integrador de tecnología ajena.

Algunos analistas han apuntado que, más que desbancar de inmediato a los líderes, el objetivo actual de Microsoft es que su modelo propio sea “suficientemente bueno” para sostener productos a gran escala sin encarecer costes ni ceder demasiado control. En esa lectura, MAI-Image-2 cumple: no encabeza todos los rankings, pero rinde a un nivel que le permite entrar en la conversación de los modelos punteros.

También pesa el contexto reputacional. En las últimas semanas, la compañía se ha visto envuelta en el término coloquial “Microslop”, empleado por parte de la comunidad para criticar la abundancia de contenido generado por IA de baja calidad en productos de Microsoft. MAI-Image-2, con su énfasis en el realismo y la consistencia, se presenta en parte como una respuesta técnica a ese tipo de críticas.

Contenido exclusivo - Clic Aquí Robots humanoides: entre el salto técnico, la apuesta militar y las dudas del mercado

Disponibilidad, acceso desde Europa y despliegue en productos de Microsoft

En el plano del acceso, la situación es algo más matizada. MAI-Image-2 ya se puede probar a través de MAI Playground, la plataforma de experimentación de modelos de Microsoft, y su despliegue se está iniciando en servicios como Copilot y Bing Image Creator. Sin embargo, esta disponibilidad se está haciendo por fases y con limitaciones geográficas.

Para usuarios en España y buena parte de Europa, el acceso directo todavía no está plenamente habilitado. Algunas publicaciones especializadas han confirmado que nuestro país no figura entre las regiones iniciales de lanzamiento, lo que obliga a recurrir a soluciones como una VPN para conectarse a los servidores en los territorios donde sí está operativo.

En el ámbito empresarial, Microsoft ha optado por empezar con un acceso restringido a la API, dirigido a clientes seleccionados que necesitan generación de imágenes a gran escala. Firmas como la agencia WPP figuran entre las primeras en probar la integración comercial del modelo, mientras se prepara una apertura gradual a más desarrolladores a través de Microsoft Foundry.

La hoja de ruta pasa por que MAI-Image-2 se integre de forma más profunda en Copilot y Bing Image Creator, dos de las puertas de entrada principales a la IA generativa de la compañía. Esto permitiría que usuarios de Windows, Microsoft 365 y los servicios online del ecosistema tuviesen el modelo disponible casi “de serie” para ilustrar documentos, presentaciones, campañas o publicaciones para redes sociales.

Limitaciones actuales: filtros agresivos, formato 1:1 y carencias de edición

Pese a sus virtudes técnicas, el uso real de MAI-Image-2 viene condicionado por una serie de restricciones de producto que, a día de hoy, recortan parte de su potencial para flujos de trabajo intensivos. Una de las más comentadas es el nivel de moderación de contenido: los filtros son especialmente estrictos, por encima de lo que ofrecen otros modelos como Google Imagen o DALL·E.

Esto se traduce en que prompts relativamente inocuos pueden ser rechazados si entran en zonas consideradas “grises”, como ciertas escenas de tensión, elementos de terror suave o contenidos que, sin ser explícitos, el sistema etiqueta como sensibles. Para creativos que trabajan en géneros como el horror, la fantasía oscura o narrativas más crudas, este tipo de bloqueo puede resultar frustrante.

A ello se suma la limitación en el volumen de uso dentro de la interfaz nativa. Cada generación de imagen activa una espera de unos 30 segundos y, una vez superado un cierto número de creaciones diarias —en torno a 15 imágenes—, se impone una pausa forzosa de 24 horas. Para experimentación casual o pruebas puntuales puede ser asumible, pero para producción continua estas barreras son difíciles de encajar.

Otra decisión llamativa es que, por el momento, el modelo solo trabaja en formato cuadrado (1:1). No hay presets en panorámico, vertical ni posibilidad de establecer proporciones personalizadas. En un contexto donde el contenido para redes sociales, anuncios y vídeo corto exige formatos muy específicos, esta restricción deja a MAI-Image-2 en desventaja frente a alternativas que ya permiten más flexibilidad.

Por último, el sistema se centra exclusivamente en la generación de texto a imagen. No dispone aún de funciones de edición avanzadas como image-to-image, inpainting, outpainting o soporte estructurado de imágenes de referencia. Para usuarios acostumbrados a las herramientas de edición de Firefly, Midjourney u otros modelos más maduros en este terreno, la propuesta actual de Microsoft puede percibirse como incompleta.

Contenido exclusivo - Clic Aquí Compatibilidad de software en Windows ARM: guía completa para no meter la pata

Desde la compañía se deja caer que estas decisiones obedecen, en buena medida, a un planteamiento prudente en la fase inicial de despliegue. El modelo, como base técnica, es potente, pero la infraestructura y las políticas de uso parecen ir unos pasos por detrás, algo que deberá ajustarse si aspira a consolidarse en entornos profesionales exigentes.

Comparación con Google y OpenAI y encaje en el mercado europeo

En el mercado global de generadores de imágenes, MAI-Image-2 aterriza en un ecosistema ya muy poblado. Los modelos de Google (como Nano Banana en sus distintas versiones) y las soluciones de OpenAI (DALL·E y las capacidades de imagen de sus modelos GPT) siguen marcando el ritmo en muchos benchmarks y pruebas comparativas.

Las evaluaciones independientes señalan que, en ciertas pruebas de realismo puro, las mejores versiones de los modelos de Google continúan algo por delante, especialmente en resolución máxima y en algunas escenas con iluminación muy compleja. Por otro lado, OpenAI mantiene una posición fuerte en integración con flujos conversacionales y en accesibilidad para usuarios no expertos.

Ahí es donde MAI-Image-2 intenta encontrar su hueco: no es el primero de la lista en todas las métricas, pero rinde mejor de lo que su posición podría sugerir. En pruebas prácticas se ha visto que puede superar a modelos de OpenAI en calidad del texto dentro de la imagen y en fidelidad a prompts largos y detallados, algo relevante para quienes necesitan cartelería, infografías o composiciones con mucha información visual.

Para Europa, y en particular para España, el encaje pasa por dos factores. Por un lado, la integración directa en herramientas de uso masivo —Office, Copilot en Windows, servicios en la nube de Azure— que muchas empresas ya utilizan en su día a día. Por otro, el cumplimiento de marcos regulatorios y exigencias de transparencia, un punto en el que Microsoft se juega buena parte de su reputación en el continente.

Aunque el acceso de momento sea limitado en nuestro país, es previsible que, a medio plazo, MAI-Image-2 se convierta en una de las opciones “por defecto” para muchas organizaciones que ya están dentro del ecosistema de la compañía y prefieren minimizar integraciones externas, siempre que las restricciones actuales se vayan suavizando.

Todo este movimiento encaja con la intención declarada de Microsoft de recortar su dependencia de OpenAI a largo plazo. Contar con un modelo de imágenes competitivo, desplegado en sus propios productos y servicios, es una pieza más de ese plan, junto con el desarrollo de otros modelos de lenguaje y asistentes orientados a distintos tipos de tareas.

Visto en conjunto, MAI-Image-2 aparece como una base técnica sólida, con resultados visuales de alto nivel, pero condicionada por decisiones de producto todavía muy conservadoras. Si la compañía ajusta filtros, formatos y límites de uso, podría pasar de ser una prometedora demostración a convertirse en un pilar real del ecosistema creativo y empresarial, también en España y el resto de Europa, donde cada vez más proyectos dependen de la generación de imágenes por IA para sacar trabajo adelante en menos tiempo.