- Microsoft lanza Phi-4-multimodal, un modelo de IA que procesa voz, imaxes e texto simultaneamente.
- Con 5.600 millóns de parámetros, supera os modelos máis grandes en recoñecemento de voz e visión.
- Inclúe Phi-4-mini, unha versión enfocada exclusivamente a tarefas de procesamento de textos.
- Dispoñible en Azure AI Foundry, Hugging Face e NVIDIA, con diversas aplicacións en empresas e educación.
Microsoft deu un paso adiante no mundo dos modelos lingüísticos con Phi-4 multimodal, a súa última e máis avanzada intelixencia artificial capaz de procesar texto, imaxes e voz simultaneamente. Este modelo, xunto co Phi-4-mini, representa a Evolución da capacidade dos pequenos modelos (SLM), que ofrece eficiencia e precisión sen necesidade de grandes cantidades de parámetros.
A chegada de Phi-4-multimodal non só representa unha mellora tecnolóxica para Microsoft, senón que tamén Compite directamente con modelos máis grandes como os de Google e Anthropic. A súa arquitectura optimizada e as súas avanzadas capacidades de razoamento fano unha opción atractiva para múltiples aplicacións, desde a tradución automática ata o recoñecemento de imaxes e voz.
Que é Phi-4-multimodal e como funciona?

Phi-4-multimodal é un modelo de IA desenvolvido por Microsoft que pode procesar texto, imaxes e voz simultáneamente. A diferenza dos modelos tradicionais que funcionan cunha única modalidade, esta intelixencia artificial integra diversas fontes de información nun único espazo de representación, grazas ao uso de técnicas de aprendizaxe cruzada.
O modelo está construído sobre unha arquitectura de 5.600 mil millóns de parámetros, utilizando unha técnica coñecida como LoRAs (Low-Rank Adaptations) para fusionar diferentes tipos de datos. Isto permite unha maior precisión no procesamento da linguaxe e unha interpretación máis profunda do contexto.
Capacidades e beneficios clave
Phi-4-mmodal é particularmente eficaz en varias tarefas clave que requiren un alto nivel de intelixencia artificial:
- Recoñecemento de voz: Supera os modelos especializados como WhisperV3 nas probas de transcrición e tradución automática.
- Procesamento de imaxes: É capaz de interpretar documentos, gráficos e realizar OCR con gran precisión.
- Inferencia de baixa latencia: Isto permítelle funcionar en dispositivos móbiles e de baixo consumo sen sacrificar o rendemento.
- Integración perfecta entre as modalidades: A súa capacidade para comprender textos, discursos e imaxes xuntos mellora o seu razoamento contextual.
Comparación con outros modelos

En termos de rendemento, Phi-4-multimodal demostrou estar á altura dos modelos máis grandes. Comparado con Gemini-2-Flash-lite e Claude-3.5-Sonnet, consegue resultados similares en tarefas multimodais, mantendo unha eficiencia superior grazas ao seu deseño compacto.
Con todo, presenta certas limitacións nas preguntas e respostas baseadas na voz, onde modelos como GPT-4o e Gemini-2.0-Flash teñen vantaxe. Isto é debido ao seu tamaño de modelo máis pequeno, que incide na retención do coñecemento fáctico. Microsoft indicou que está a traballar para mellorar esta capacidade en futuras versións.
Phi-4-mini: o irmán pequeno de Phi-4-multimodal
Xunto con Phi-4-multimodal, Microsoft tamén lanzou Phi-4-mini, unha variante optimizada para tarefas específicas baseadas en texto. Este modelo está deseñado para ofrecer alta eficiencia no procesamento da linguaxe natural, polo que é ideal para chatbots, asistentes virtuais e outras aplicacións que requiren unha comprensión e xeración de texto precisas.
Dispoñibilidade e aplicacións

Microsoft puxo a disposición dos desenvolvedores Phi-4-multimodal e Phi-4-mini Azure AI Foundry, Hugging Face e o catálogo da API de NVIDIA. Isto significa que calquera empresa ou usuario con acceso a estas plataformas pode comezar a experimentar co modelo e aplicalo en diferentes escenarios.
Dado o seu enfoque multimodal, Phi-4 é Dirixido a sectores como:
- Tradución automática e subtitulado en tempo real.
- Recoñecemento e análise de documentos para empresas.
- Aplicacións móbiles con asistentes intelixentes.
- Modelos educativos para mellorar o ensino baseado na IA.
Microsoft deu un interesante xiro con estes modelos centrándose na eficiencia e escalabilidade. Co aumento da competencia no campo dos pequenos modelos lingüísticos (SLM), Phi-4-multimodal preséntase como unha alternativa viable aos modelos máis grandes, ofrecendo un equilibrio entre rendemento e capacidade de procesamento accesible incluso en dispositivos menos potentes.
Son un entusiasta da tecnoloxía que converteu os seus intereses "friki" nunha profesión. Levo máis de 10 anos da miña vida empregando tecnoloxía de punta e retocando todo tipo de programas por pura curiosidade. Agora especializeime en tecnoloxía informática e videoxogos. Isto débese a que dende hai máis de 5 anos levo escribindo para diversas webs sobre tecnoloxía e videoxogos, creando artigos que buscan darche a información que necesitas nun idioma comprensible para todos.
Se tes algunha dúbida, os meus coñecementos abarcan dende todo o relacionado co sistema operativo Windows e tamén con Android para teléfonos móbiles. E o meu compromiso é contigo, sempre estou disposto a dedicar uns minutos e axudarche a resolver calquera dúbida que teñas neste mundo de internet.