- Microsoft llança Phi-4-multimodal, un model d'IA que processa veu, imatges i text simultàniament.
- Amb 5.600 milions de paràmetres, supera en reconeixement de veu i visió models més grans.
- Inclou Phi-4-mini, una versió enfocada exclusivament a tasques de processament de text.
- Disponible a Azure AI Foundry, Hugging Face i NVIDIA, amb aplicacions diverses en empreses i educació.
Microsoft ha fet un pas endavant en el món dels models de llenguatge amb Phi-4 multimodal, la seva última i més avançada intel·ligència artificial capaç de processar simultàniament text, imatges i veu. Aquest model, juntament amb Phi-4-mini, representa una evolució en la capacitat dels models petits (SLM), oferint eficiència i precisió sense necessitat d'enormes quantitats de paràmetres.
L'arribada de Phi-4-multimodal no només suposa una millora tecnològica per a Microsoft, sinó que també competeix directament amb models més grans com els de Google i Anthropic. La seva arquitectura optimitzada i les seves capacitats de raonament avançades el converteixen en una opció atractiva per a múltiples aplicacions, des de la traducció automàtica fins al reconeixement d'imatges i veu.
Què és Phi-4-multimodal i com funciona?

Phi-4-multimodal és un model d'IA desenvolupat per Microsoft que pot processar simultàniament text, imatges i veu. A diferència dels models tradicionals que treballen amb una sola modalitat, aquesta intel·ligència artificial integra fonts d'informació diverses en un únic espai de representació, gràcies a l'ús de tècniques d'aprenentatge creuat.
El model es construeix sobre una arquitectura de 5.600 milions de paràmetres, emprant una tècnica coneguda com LoRAs (Low-Rank Adaptations) per fusionar els diferents tipus de dades. Això permet una major precisió en el processament del llenguatge i una interpretació més profunda del context.
Principals capacitats i avantatges
Phi-4-multimodal és particularment eficaç en diverses tasques clau que requereixen un alt nivell d'intel·ligència artificial:
- Reconeixement de veu: Supera models especialitzats com WhisperV3 en proves de transcripció i traducció automàtica.
- Processament d'imatges: És capaç d'interpretar documents, gràfics i fer OCR amb gran precisió.
- Inferència de baixa latència: Això us permet executar-se en dispositius mòbils i de baixa potència sense sacrificar el rendiment.
- Integració fluida entre modalitats: La seva capacitat per comprendre text, veu i imatges de manera conjunta en millora el raonament contextual.
Comparativa amb altres models

En termes de rendiment, Phi-4-multimodal ha demostrat estar a l'alçada de models més grans. Comparat amb Gemini-2-Flash-lite i Claude-3.5-Sonnet, aconsegueix resultats similars en tasques multimodals, mantenint una eficiència superior gràcies al disseny compacte.
No obstant això, presenta certes limitacions en preguntes i respostes basades en veu, on models com GPT-4o i Gemini-2.0-Flash tenen un avantatge. Això és degut a la seva menor mida de model, cosa que impacta en la retenció de coneixements factuals. Microsoft ha indicat que està treballant per millorar aquesta capacitat en futures versions.
Phi-4-mini: el germà menor de Phi-4-multimodal
Juntament amb Phi-4-multimodal, Microsoft també ha llançat Phi-4-mini, una variant optimitzada per a tasques específiques basades en text. Aquest model està dissenyat per oferir una alta eficiència en processament del llenguatge natural, sent ideal per a chatbots, assistents virtuals i altres aplicacions que requereixin comprendre i generar text amb precisió.
Disponibilitat i aplicacions

Microsoft ha posat Phi-4-multimodal i Phi-4-mini a disposició dels desenvolupadors a través de Azure AI Foundry, Hugging Face i el Catàleg d'API de NVIDIA. Això significa que qualsevol empresa o usuari amb accés a aquestes plataformes pot començar a experimentar amb el model i aplicar-lo a diferents escenaris.
Donat el seu enfocament multimodal, Phi-4 està orientat a sectors com:
- Traducció automàtica i subtitulat en temps real.
- Reconeixement i anàlisi de documents per a empreses.
- Aplicacions mòbils amb assistents intel·ligents.
- Models educatius per millorar l'ensenyament basat a IA.
Microsoft ha donat un gir interessant amb aquests models en enfocar-se en eficiència i escalabilitat. Amb la creixent competència en l'àmbit dels models de llenguatge petits (SLM), Phi-4-multimodal es presenta com una alternativa viable als models més grans, oferint un balanç entre rendiment i capacitat de processament accessible fins i tot en dispositius menys potents.
Sóc un apassionat de la tecnologia que ha convertit els seus interessos frikis en professió. Porto més de 10 anys de la meva vida utilitzant tecnologia d'avantguarda i traslladant tota mena de programes per pura curiositat. Ara he especialitzat en tecnologia d'ordinador i videojocs. Això és perquè des de fa més de 5 anys que treballo redactant per a diverses webs en matèria de tecnologia i videojocs, creant articles que busquen donar-te la informació que necessites amb un llenguatge comprensible per tothom.
Si tens qualsevol pregunta, els meus coneixements van des de tot allò relacionat amb el sistema operatiu Windows així com Android per a mòbils. I és que el meu compromís és amb tu, sempre estic disposat a dedicar-te uns minuts i ajudar-te a resoldre qualsevol dubte que tinguis a aquest món d'internet.