Microsoft Phi-4 Multimodal: AI, ки овоз, тасвирҳо ва матнро мефаҳмад

Навсозии охирин: 27/02/2025

  • Microsoft модели AI-и Phi-4-multimodal-ро оғоз мекунад, ки дар як вақт садо, тасвирҳо ва матнро коркард мекунад.
  • Бо 5.600 миллиард параметр, он аз моделҳои калонтар дар шинохти овоз ва биниш бартарӣ дорад.
  • Phi-4-mini дар бар мегирад, версияе, ки танҳо ба вазифаҳои коркарди матн нигаронида шудааст.
  • Дар Azure AI Foundry, Hugging Face ва NVIDIA бо барномаҳои гуногун дар тиҷорат ва маориф дастрас аст.
Phi-4 multimodal-0 чист

Microsoft дар ҷаҳони моделҳои забонӣ бо мултимодалии Phi-4 як қадам ба пеш гузошт, зеҳни сунъии навтарин ва пешрафтаи он, ки қодир аст ҳамзамон матн, тасвирҳо ва овозро коркард кунад. Ин модел дар якҷоягӣ бо Phi-4-mini, а Эволютсия дар иқтидори моделҳои хурд (SLM), самаранокӣ ва дақиқиро бидуни ниёз ба миқдори зиёди параметрҳо пешниҳод мекунад.

Пайдоиши Phi-4-multimodal на танҳо такмили технологӣ барои Microsoft аст, балки инчунин Он мустақиман бо моделҳои калонтар ба монанди моделҳои Google ва Anthropic рақобат мекунад. Меъмории оптимизатсияшудаи он ва қобилиятҳои мукаммали тафаккур онро месозад як варианти ҷолиб барои барномаҳои сершумор, аз тарҷумаи мошин то тасвир ва шинохти овоз.

Мундариҷаи истисноӣ - Ин ҷо клик кунед  Виҷетҳои нави Gemini Material You ба Android меоянд.

Phi-4-multimodal чист ва он чӣ гуна кор мекунад?

Phi-4 Microsoft

Phi-4-multimodal як модели AI мебошад, ки аз ҷониби Microsoft таҳия шудааст, ки метавонад ҳамзамон матн, тасвирҳо ва овозро коркард кунад. Баръакси моделҳои анъанавӣ, ки бо як услуб кор мекунанд, ин зеҳни сунъӣ ба шарофати истифодаи усулҳои омӯзиши байнисоҳавӣ сарчашмаҳои гуногуни иттилоотро дар фазои ягонаи намояндагӣ муттаҳид мекунад.

Модели меъморӣ сохта шудааст 5.600 миллиард параметр, бо истифода аз як техникаи бо номи LoRAs (Мутобиқсозии сатҳи паст) барои якҷоя кардани намудҳои гуногуни маълумот. Ин имкон медиҳад, ки дақиқтар дар коркарди забон ва тафсири амиқтари контекст.

Имкониятҳо ва манфиатҳои асосӣ

Phi-4-multimodal махсусан дар якчанд вазифаҳои асосӣ, ки сатҳи баланди зеҳни сунъиро талаб мекунанд, самаранок аст:

  • Шинохти сухан: Он аз моделҳои махсус ба монанди WhisperV3 дар санҷишҳои транскрипсия ва тарҷумаи мошин бартарӣ дорад.
  • Коркарди тасвир: Он қодир аст ҳуҷҷатҳо, графикҳоро тафсир кунад ва OCR-ро бо дақиқии баланд иҷро кунад.
  • Натиҷаи таъхири паст: Ин имкон медиҳад, ки ба он имкон медиҳад, ки дар дастгоҳҳои мобилӣ ва камиқтидор бе талафи иҷроиш кор кунад.
  • Интегратсияи бефосила байни усулҳо: Қобилияти онҳо барои фаҳмидани матн, нутқ ва тасвирҳо дарки контекстии онҳоро беҳтар мекунад.
Мундариҷаи истисноӣ - Ин ҷо клик кунед  AMD ва Stability AI инқилоби сунъии маҳаллиро дар ноутбукҳо бо Amuse 3.1

Муқоиса бо моделҳои дигар

PHI-4 - иҷрои мултимодалӣ

Дар робита ба иҷроиш, Phi-4-multimodal бо моделҳои калонтар баробар аст. Дар муқоиса бо Gemini-2-Flash-lite ва Claude-3.5-Sonnet, дар вазифаҳои мултимодалӣ натиҷаҳои шабеҳ ба даст оварда, дар ҳоле ки ба туфайли тарҳи паймонаш самаранокии баландро нигоҳ медорад.

Аммо, дар саволу ҷавобҳои ба овоз асосёфта маҳдудиятҳои муайян пешниҳод мекунад, ки моделҳои монанди GPT-4o ва Gemini-2.0-Flash бартарӣ доранд. Ин аз сабаби андозаи хурдтари модели он аст, ки ба нигоҳ доштани донишҳои воқеӣ таъсир мерасонад. Microsoft изҳор дошт, ки барои беҳтар кардани ин қобилият дар версияҳои оянда кор мекунад.

Phi-4-mini: бародари хурдии Phi-4-multimodal

Дар баробари Phi-4-multimodal, Microsoft низ ба кор даромад Фи-4-мини, варианти оптимизатсияшуда барои вазифаҳои мушаххаси матн асосёфта. Ин модел барои пешниҳод тарҳрезӣ шудааст самаранокии баланд дар коркарди забони табиӣ, онро барои чатботҳо, ёрдамчиёни виртуалӣ ва дигар барномаҳое, ки фаҳмиши дақиқ ва тавлиди матнро талаб мекунанд, беҳтарин месозад.

Мавҷудият ва барномаҳо

Phi-4 multimodal-5 чист

Microsoft тавассути Phi-4-multimodal ва Phi-4-mini барои таҳиягарон дастрас кардааст Azure AI Foundry, Hugging Face ва Каталоги NVIDIA API. Ин маънои онро дорад, ки ҳар як ширкат ё корбаре, ки ба ин платформаҳо дастрасӣ дорад, метавонад ба озмоиш бо модел оғоз кунад ва онро дар сенарияҳои гуногун татбиқ кунад.

Мундариҷаи истисноӣ - Ин ҷо клик кунед  Gemma 3n: Корхонаи нави Google барои овардани AI-и пешрафта ба ҳама гуна дастгоҳ

Бо назардошти равиши бисёрҷонибаи он, Phi-4 аст Ба чунин сохахо нигаронида шудааст:

  • Тарҷумаи мошин ва субтитрҳо дар вақти воқеӣ.
  • Шинохтан ва таҳлили ҳуҷҷатҳо барои тиҷорат.
  • Барномаҳои мобилӣ бо ёрдамчиёни интеллектуалӣ.
  • Моделҳои таълимӣ барои беҳтар кардани таълим дар асоси AI.

Microsoft дод печутоби ҷолиб бо ин моделҳо бо таваҷҷӯҳ ба самаранокӣ ва миқёспазирӣ. Бо афзоиши рақобат дар соҳаи моделҳои забони хурд (SLM), Phi-4-multimodal ҳамчун алтернативаи қобили истифода ба моделҳои калонтар пешниҳод карда мешавад, пешниҳоди тавозуни байни иҷроиш ва қобилияти коркард ҳатто дар дастгоҳҳои камқувват дастрас аст.