- Microsoft Phi-4-multimodal, modelek AI-yê ku deng, wêne û nivîsê bi hevdemî pêvajoyê dike dest pê dike.
- Bi 5.600 mîlyar parametre, ew di naskirina deng û dîtinê de ji modelên mezintir derdikeve pêş.
- Di nav xwe de Phi-4-mini, guhertoyek ku bi taybetî li ser karên hilberandina peyvan disekine.
- Li ser Azure AI Foundry, Hugging Face, û NVIDIA, bi serîlêdanên cihêreng ên di karsazî û perwerdehiyê de peyda dibe.
Microsoft di cîhana modelên zimanî de bi multîmodal Phi-4 gavek pêş de avêtiye, îstîxbarata wê ya sûnî ya herî dawî û pêşkeftî ku karibe bi hevdemî nivîs, wêne û deng hilîne. Ev model, bi Phi-4-mini re, a Pêşveçûn di kapasîteya modelên piçûk de (SLM), bêyî hewcedariya mîqdarên mezin ên pîvanan, karîgerî û rastbûnê pêşkêş dike.
Hatina Phi-4-multimodal ne tenê ji bo Microsoft-ê pêşkeftinek teknolojîk temsîl dike, lê di heman demê de jî Ew rasterast bi modelên mezin ên wekî yên ji Google û Anthropic re pêşbaziyê dike. Mîmariya wê ya xweşbînkirî û kapasîteyên ramana pêşkeftî wê dike vebijarkek balkêş ji bo serîlêdanên pirjimar, ji wergera makîneyê bigire heya naskirina wêne û deng.
Phi-4-multimodal çi ye û ew çawa dixebite?

Phi-4-multimodal modelek AI-yê ye ku ji hêla Microsoft-ê ve hatî pêşve xistin ku dikare bi hevdemî nivîs, wêne û deng pêvajoyê bike.. Berevajî modelên kevneşopî yên ku bi yek modalîteyê dixebitin, ev îstîxbarata sûnî, bi saya karanîna teknîkên fêrbûna xaçerê, çavkaniyên cihêreng ên agahiyê li cîhek nûnertiyê yek dike.
Modela li ser mîmariya ava kirin 5.600 milyar parametre, teknîkek ku wekî LoRAs (Adaptasyonên Nizm-Rank) tê zanîn bikar tîne da ku cûreyên cûda yên daneyan bi hev ve bike. Ev yek dihêle ku di pêvajoyek ziman de rastbûnek mezintir û şirovekirina kûrtir a çarçoweyê hebe.
Kapasîteyên sereke û feydeyên
Phi-4-multimodal bi taybetî di çend karên sereke yên ku hewceyê astek bilind a îstîxbarata çêkirî hewce dike bi bandor e:
- Naskirina axaftinê: Ew ji modelên pispor ên wekî WhisperV3 di ceribandinên transkripsiyonê û wergerandina makîneyê de pêş dikeve.
- Pêvajoya wêneyê: Ew dikare belge, grafîk û OCR bi rastiyek mezin şîrove bike.
- Encama Derengiya Kêm: Ev dihêle ku ew li ser cîhazên mobîl û kêm-hêza bê ku performansê bike qurban.
- Yekbûna bêkêmasî di navbera modalîteyên de: Kapasîteya wan a fêmkirina nivîs, axaftin û wêneyan bi hev re ramana wan a çarçove çêtir dike.
Bi modelên din re berhev bikin

Di warê performansê de, Phi-4-multimodal îsbat kiriye ku bi modelên mezintir re li ser hev e. Li gorî Gemini-2-Flash-lite û Claude-3.5-Sonnet, di karên multimodal de encamên wekhev digihîje, di heman demê de bi saya sêwirana xweya kompakt karbidestiya bilind diparêze.
Lêbelê, di pirs û bersivên deng-based de hin sînoran peyda dike, ku modelên mîna GPT-4o û Gemini-2.0-Flash xwedî avantaj in. Ev ji ber mezinahiya modela wê ya piçûktir e, ku bandorê li ragirtina zanîna rastîn dike. Microsoft destnîşan kir ku ew dixebitin ku vê kapasîteyê di guhertoyên pêşerojê de çêtir bikin.
Phi-4-mini: birayê piçûk ê Phi-4-multimodal
Digel Phi-4-multimodal, Microsoft jî dest pê kir Phi-4-mini, guhertoyek ku ji bo karên taybetî-based nivîsarê xweşbînkirî ye. Ev modela ji bo pêşkêşkirinê hatiye çêkirin di pêvajoya zimanê xwezayî de karîgeriya bilind, wê ji bo chatbots, arîkarên virtual, û serîlêdanên din ên ku têgihîştina rast û hilberîna nivîsê hewce dikin îdeal e.
Hebûn û sepanên

Microsoft bi navgîniya Phi-4-multimodal û Phi-4-mini ji pêşdebiran re peyda kiriye Azure AI Foundry, Hugging Face, û Kataloga NVIDIA API. Ev tê vê wateyê ku her pargîdaniyek an bikarhênerek ku bigihîje van platforman dikare dest bi ceribandina modelê bike û wê di senaryoyên cihêreng de bicîh bîne.
Ji ber nêzîkbûna xweya pirmodal, Phi-4 e Ji bo sektorên wekî:
- Wergera makîneyê û jêrnivîsa rast-dem.
- Naskirin û analîzkirina belgeyê ji bo karsaziyan.
- Serlêdanên mobîl bi arîkarên aqilmend.
- Modelên perwerdehiyê ji bo baştirkirina hînkirina-based AI.
Microsoft daye a bi van modelan re bi balkişandina li ser karîgerî û pîvandinê ve dirûvek balkêş. Bi zêdebûna pêşbaziya di warê modelên zimanên piçûk (SLM), Phi-4-multimodal ji modelên mezintir re wekî alternatîfek maqûl tê pêşkêş kirin, di navbera performans û kapasîteya pêvajoyê de hevsengiyek pêşkêş dike li ser cîhazên kêmtir hêzdar jî tê gihîştin.
Ez dilşewatekî teknolojiyê me ku berjewendiyên xwe yên "geek" veguherandiye pîşeyekê. Min zêdetirî 10 sal ji jiyana xwe bi karanîna teknolojiya pêşkeftî derbas kir û ji meraqek paqij bi her cûre bernameyan ve mijûl kir. Niha ez di teknolojiya kompîturê û lîstikên vîdyoyê de pispor bûm. Ji ber ku ji 5 salan zêdetir e ku ez ji bo malperên cihêreng ên li ser teknolojî û lîstikên vîdyoyê dinivîsim, gotarên ku dixwazin agahdariya ku hûn hewce ne bi zimanek ku ji hêla her kesî ve tê fam kirin bidin we diafirînim.
Ger pirsên we hebin, zanîna min ji her tiştê ku bi pergala xebitandina Windows-ê ve û hem jî Android-ê ji bo têlefonên desta ve girêdayî ye diguhere. Û soza min ji we re ye, ez her gav amade me ku çend hûrdeman derbas bikim û ji we re bibe alîkar ku hûn di vê cîhana înternetê de pirsên we hebin çareser bikin.