Com instal·lar Phi-4 Multimodal de Microsoft a Windows 11

Darrera actualització: 02/03/2025

Phi-4 Multimodal

Fa uns dies en aquest bloc ens fèiem ressò del llançament de Phi-4 Multimodal de Microsoft, un ambiciós model d'intel·ligència artificial dissenyat per processar simultàniament text, imatges i veu. Un avenç que representa un fita significativa en l'evolució de la IA, permetent interaccions més naturals i eficients amb els dispositius. Ara veurem com instal·lar Phi-4 Multimodal a Windows 11 i començar a gaudir dels avantatges.

La informació que us portem en aquest article us resultarà de gran utilitat per aprofitar la gran potència d'aquesta IA. Aquí trobareu el procés d'instal·lació detallat pas a pas, des dels requisits mínims fins a la configuració i ús.

Què és Phi-4 Multimodal i per què és rellevant?

Tal com explica Microsoft al seu web oficial, Phi-4 Multimodal és el model d'intel·ligència artificial més avançat que ha creat l'empresa fins ara. A diferència de versions anteriors centrades en el processament de text, aquesta nova versió incorpora un enfocament multimodal que combina text, imatges i veu en un únic sistema.

Contingut exclusiu - Clic Aquí  Què és Copilot i per a què serveix? Descobreix com impulsa la teva productivitat i codi

Gràcies a la seva arquitectura optimitzada amb 14.000 milions de paràmetres, Phi-4 Multimodal aconsegueix un rendiment excel·lent en tasques de traducció automàtica, reconeixement de veu i assistència conversacional. Si vols aprofundir en les característiques d'aquesta tecnologia, pots consultar més detalls al nostre article dedicat al model d'IA de Microsoft.

Requisits mínims per instal·lar Phi-4 Multimodal a Windows 11

Abans de procedir amb la instal·lació, és fonamental assegurar-se que el teu equip compleix els següents requisits:

  • Targeta gràfica (GPU): Es recomana una RTX A6000 per a un rendiment òptim.
  • Espai en disc: Almenys 40 GB demmagatzematge lliure.
  • memòria RAM: Es recomana un mínim de 48 GB.
  • Processador (CPU): 48 nuclis per a una execució fluida.

Com instal·lar Phi-4 Multimodal a Windows 11

Com instal·lar Phi-4 Multimodal de Microsoft a Windows 11

 

A continuació, detallem el procés d'instal·lar Phi-4 Multimodal de Microsoft a Windows 11 pas a pas:

1. Descarregar i instal·lar Ollama

Ollama és la plataforma que permet executar Phi-4 Multimodal al teu equip local. Per instal·lar-la, el primer que cal fer és executar la següent ordre a la terminal de Windows:

Contingut exclusiu - Clic Aquí  Meta Vibes: el nou feed de vídeos IA a Meta AI

curl -fsSL https://ollama.com/install.sh | sh

2. Configurar l'entorn

Un cop instal·lat Ollama, cal configurar l'entorn adequat per a Phi-4 Multimodal. Això inclou seleccionar els recursos de maquinari adequats i ajustar la configuració del sistema.

3. Descarregar i iniciar Phi-4 Multimodal

Un cop completats els ajustaments, per obtenir el model hem d'executar la següent ordre a la terminal:

ollama pull vanilj/Phi-4

Un cop finalitzada la descàrrega, iniciem el model amb:

ollama run vanilj/Phi-4

Utilitza Phi-4 Multimodal a Azure AI Foundry

azure ai foundry

Una altra opció per utilitzar Phi-4 Multimodal és a través de la plataforma al núvol de Microsoft, Azure AI Foundry. Aquesta alternativa permet accedir a les capacitats del model sense necessitat d'instal·lació local.

Per desplegar Phi-4 Multimodal a Azure cal seguir aquests passos:

  1. Accedeix al portal d'Azure AI Foundry.
  2. Seleccioneu l'opció de desplegament del model Phi-4 Multimodal.
  3. Segueix les instruccions per a la configuració i ús.

Comparació amb altres models de IA

 

Contingut exclusiu - Clic Aquí  Una parella va conduir més de tres hores per conèixer un lloc que no existia: la IA ja està generant destinacions turístiques falses

Phi-4 Multimodal ha demostrat un rendiment excel·lent en tasques de processament de llenguatge natural i reconeixement de veu. Comparat amb models com Gemini Pro i GPT-4o, el seu avantatge rau en la eficiència amb què maneja múltiples tipus de dades simultàniament.

En proves de benchmark, Phi-4 Multimodal ha superat models de referència en tasques com:

  • Reconeixement de veu avançat.
  • Traducció automàtica d'alta precisió.
  • Interacció multimodal en temps real.

Microsoft ha fet un gran pas amb Phi-4 Multimodal, oferint als usuaris una eina robusta i versàtil que redefineix el potencial de la intel·ligència artificial a l'àmbit domèstic i empresarial. La seva instal·lació a Windows 11 permet aprofitar un model d'última generació que integra veu, imatge i text amb una fluïdesa sense precedents.