Microsoft Phi-4 Multimodal: AI-ya ku deng, wêne û nivîsê fam dike

Nûvekirina Dawîn: 27/02/2025

  • Microsoft Phi-4-multimodal, modelek AI-yê ku deng, wêne û nivîsê bi hevdemî pêvajoyê dike dest pê dike.
  • Bi 5.600 mîlyar parametre, ew di naskirina deng û dîtinê de ji modelên mezintir derdikeve pêş.
  • Di nav xwe de Phi-4-mini, guhertoyek ku bi taybetî li ser karên hilberandina peyvan disekine.
  • Li ser Azure AI Foundry, Hugging Face, û NVIDIA, bi serîlêdanên cihêreng ên di karsazî û perwerdehiyê de peyda dibe.
Phi-4 multimodal-0 çi ye

Microsoft di cîhana modelên zimanî de bi multîmodal Phi-4 gavek pêş de avêtiye, îstîxbarata wê ya sûnî ya herî dawî û pêşkeftî ku karibe bi hevdemî nivîs, wêne û deng hilîne. Ev model, bi Phi-4-mini re, a Pêşveçûn di kapasîteya modelên piçûk de (SLM), bêyî hewcedariya mîqdarên mezin ên pîvanan, karîgerî û rastbûnê pêşkêş dike.

Hatina Phi-4-multimodal ne tenê ji bo Microsoft-ê pêşkeftinek teknolojîk temsîl dike, lê di heman demê de jî Ew rasterast bi modelên mezin ên wekî yên ji Google û Anthropic re pêşbaziyê dike. Mîmariya wê ya xweşbînkirî û kapasîteyên ramana pêşkeftî wê dike vebijarkek balkêş ji bo serîlêdanên pirjimar, ji wergera makîneyê bigire heya naskirina wêne û deng.

Naveroka taybetî - Li vir bikirtînin  Widgetên nû yên Material You yên Gemini li ser Androidê têne.

Phi-4-multimodal çi ye û ew çawa dixebite?

Phi-4 Microsoft

Phi-4-multimodal modelek AI-yê ye ku ji hêla Microsoft-ê ve hatî pêşve xistin ku dikare bi hevdemî nivîs, wêne û deng pêvajoyê bike.. Berevajî modelên kevneşopî yên ku bi yek modalîteyê dixebitin, ev îstîxbarata sûnî, bi saya karanîna teknîkên fêrbûna xaçerê, çavkaniyên cihêreng ên agahiyê li cîhek nûnertiyê yek dike.

Modela li ser mîmariya ava kirin 5.600 milyar parametre, teknîkek ku wekî LoRAs (Adaptasyonên Nizm-Rank) tê zanîn bikar tîne da ku cûreyên cûda yên daneyan bi hev ve bike. Ev yek dihêle ku di pêvajoyek ziman de rastbûnek mezintir û şirovekirina kûrtir a çarçoweyê hebe.

Kapasîteyên sereke û feydeyên

Phi-4-multimodal bi taybetî di çend karên sereke yên ku hewceyê astek bilind a îstîxbarata çêkirî hewce dike bi bandor e:

  • Naskirina axaftinê: Ew ji modelên pispor ên wekî WhisperV3 di ceribandinên transkripsiyonê û wergerandina makîneyê de pêş dikeve.
  • Pêvajoya wêneyê: Ew dikare belge, grafîk û OCR bi rastiyek mezin şîrove bike.
  • Encama Derengiya Kêm: Ev dihêle ku ew li ser cîhazên mobîl û kêm-hêza bê ku performansê bike qurban.
  • Yekbûna bêkêmasî di navbera modalîteyên de: Kapasîteya wan a fêmkirina nivîs, axaftin û wêneyan bi hev re ramana wan a çarçove çêtir dike.
Naveroka taybetî - Li vir bikirtînin  AMD û Stability AI bi Amuse 3.1 re şoreşek di renderkirina AI ya herêmî de li ser laptopan çêdikin.

Bi modelên din re berhev bikin

PHI-4-performansa pirzimanî

Di warê performansê de, Phi-4-multimodal îsbat kiriye ku bi modelên mezintir re li ser hev e. Li gorî Gemini-2-Flash-lite û Claude-3.5-Sonnet, di karên multimodal de encamên wekhev digihîje, di heman demê de bi saya sêwirana xweya kompakt karbidestiya bilind diparêze.

Lêbelê, di pirs û bersivên deng-based de hin sînoran peyda dike, ku modelên mîna GPT-4o û Gemini-2.0-Flash xwedî avantaj in. Ev ji ber mezinahiya modela wê ya piçûktir e, ku bandorê li ragirtina zanîna rastîn dike. Microsoft destnîşan kir ku ew dixebitin ku vê kapasîteyê di guhertoyên pêşerojê de çêtir bikin.

Phi-4-mini: birayê piçûk ê Phi-4-multimodal

Digel Phi-4-multimodal, Microsoft jî dest pê kir Phi-4-mini, guhertoyek ku ji bo karên taybetî-based nivîsarê xweşbînkirî ye. Ev modela ji bo pêşkêşkirinê hatiye çêkirin di pêvajoya zimanê xwezayî de karîgeriya bilind, wê ji bo chatbots, arîkarên virtual, û serîlêdanên din ên ku têgihîştina rast û hilberîna nivîsê hewce dikin îdeal e.

Hebûn û sepanên

Phi-4 multimodal-5 çi ye

Microsoft bi navgîniya Phi-4-multimodal û Phi-4-mini ji pêşdebiran re peyda kiriye Azure AI Foundry, Hugging Face, û Kataloga NVIDIA API. Ev tê vê wateyê ku her pargîdaniyek an bikarhênerek ku bigihîje van platforman dikare dest bi ceribandina modelê bike û wê di senaryoyên cihêreng de bicîh bîne.

Naveroka taybetî - Li vir bikirtînin  Gemma 3n: Pêşbaziya nû ya Google-ê ji bo anîna AI-ya pêşkeftî bo her cîhazê

Ji ber nêzîkbûna xweya pirmodal, Phi-4 e Ji bo sektorên wekî:

  • Wergera makîneyê û jêrnivîsa rast-dem.
  • Naskirin û analîzkirina belgeyê ji bo karsaziyan.
  • Serlêdanên mobîl bi arîkarên aqilmend.
  • Modelên perwerdehiyê ji bo baştirkirina hînkirina-based AI.

Microsoft daye a bi van modelan re bi balkişandina li ser karîgerî û pîvandinê ve dirûvek balkêş. Bi zêdebûna pêşbaziya di warê modelên zimanên piçûk (SLM), Phi-4-multimodal ji modelên mezintir re wekî alternatîfek maqûl tê pêşkêş kirin, di navbera performans û kapasîteya pêvajoyê de hevsengiyek pêşkêş dike li ser cîhazên kêmtir hêzdar jî tê gihîştin.