- „Microsoft“ pristato „Phi-4-multimodal“ – AI modelį, kuris vienu metu apdoroja balsą, vaizdus ir tekstą.
- 5.600 milijardo parametrų jis pranoksta didesnius modelius balso ir regos atpažinimo srityje.
- Apima Phi-4-mini, versiją, skirtą tik teksto apdorojimo užduotims.
- Galima naudoti „Azure AI Foundry“, „Hugging Face“ ir „NVIDIA“ įrenginiuose su įvairiomis verslo ir švietimo programomis.
„Microsoft“ žengė žingsnį į priekį kalbų modelių pasaulyje su multimodaliniu „Phi-4“., jos naujausias ir pažangiausias dirbtinis intelektas, galintis vienu metu apdoroti tekstą, vaizdus ir balsą. Šis modelis kartu su Phi-4-mini reprezentuoja a Mažų modelių pajėgumų raida (SLM), siūlantis efektyvumą ir tikslumą, nereikalaujant didžiulio kiekio parametrų.
„Phi-4-multimodal“ atėjimas ne tik reiškia „Microsoft“, bet ir technologinį patobulinimą Jis tiesiogiai konkuruoja su didesniais modeliais, tokiais kaip „Google“ ir „Anthropic“.. Jo optimizuota architektūra ir pažangios samprotavimo galimybės leidžia tai padaryti patraukli galimybė įvairioms programoms, nuo mašininio vertimo iki vaizdo ir balso atpažinimo.
Kas yra Phi-4-multimodalinis ir kaip jis veikia?

„Phi-4-multimodal“ yra „Microsoft“ sukurtas dirbtinio intelekto modelis, galintis vienu metu apdoroti tekstą, vaizdus ir balsą.. Skirtingai nuo tradicinių modelių, kurie veikia su vienu modalumu, šis dirbtinis intelektas integruoja įvairius informacijos šaltinius į vieną reprezentacijos erdvę dėl kryžminio mokymosi metodų naudojimo.
Modelis sukurtas remiantis architektūra 5.600 milijardų parametrų, naudojant metodą, žinomą kaip LoRA (žemo rango adaptacijos), kad sujungtų skirtingų tipų duomenis. Tai leidžia tiksliau apdoroti kalbą ir giliau interpretuoti kontekstą.
Pagrindinės galimybės ir privalumai
„Phi-4-multimodal“ yra ypač efektyvus atliekant kelias pagrindines užduotis, kurioms reikalingas aukštas dirbtinio intelekto lygis:
- Kalbos atpažinimas: Transkripcijos ir mašininio vertimo testuose jis lenkia specializuotus modelius, tokius kaip WhisperV3.
- Vaizdo apdorojimas: Jis gali labai tiksliai interpretuoti dokumentus, grafiką ir atlikti OCR.
- Mažos delsos išvada: Tai leidžia veikti mobiliuosiuose ir mažos galios įrenginiuose neprarandant našumo.
- Sklandus modalumo integravimas: Jų gebėjimas kartu suprasti tekstą, kalbą ir vaizdus pagerina jų kontekstinį samprotavimą.
Palyginimas su kitais modeliais

Pagal našumą „Phi-4-multimodal“ prilygsta didesniems modeliams. Palyginti su Gemini-2-Flash-lite ir Claude-3.5-Sonnet, pasiekia panašių rezultatų atliekant įvairiarūšes užduotis, o dėl kompaktiškos konstrukcijos išlaiko puikų efektyvumą.
Tačiau pateikia tam tikrus balsu pagrįstų klausimų ir atsakymų apribojimus, kur tokie modeliai kaip GPT-4o ir Gemini-2.0-Flash turi pranašumą. Taip yra dėl mažesnio modelio dydžio, kuris turi įtakos faktinių žinių išsaugojimui. „Microsoft“ nurodė, kad ji stengiasi patobulinti šią galimybę būsimose versijose.
Phi-4-mini: mažasis Phi-4-multimodal brolis
Kartu su „Phi-4-multimodal“ taip pat pristatė „Microsoft“. Phi-4-mini, variantas, optimizuotas konkrečioms tekstinėmis užduotimis. Šis modelis skirtas pasiūlyti didelis natūralios kalbos apdorojimo efektyvumas, todėl puikiai tinka pokalbių robotams, virtualiems padėjėjams ir kitoms programoms, kurioms reikalingas tikslus teksto supratimas ir generavimas.
Prieinamumas ir programos

„Microsoft“ sukūrė „Phi-4-multimodal“ ir „Phi-4-mini“ kūrėjams Azure AI Foundry, Hugging Face ir NVIDIA API katalogas. Tai reiškia, kad bet kuri įmonė ar vartotojas, turintis prieigą prie šių platformų, gali pradėti eksperimentuoti su modeliu ir taikyti jį įvairiuose scenarijuose.
Atsižvelgiant į multimodalinį požiūrį, Phi-4 yra Skirta tokiems sektoriams kaip:
- Mašininis vertimas ir subtitravimas realiuoju laiku.
- Dokumentų atpažinimas ir analizė verslui.
- Mobiliosios programos su išmaniaisiais asistentais.
- Švietimo modeliai, skirti tobulinti AI pagrįstą mokymą.
„Microsoft“ suteikė a Įdomūs šių modelių posūkiai, daugiausia dėmesio skiriant efektyvumui ir mastelio keitimui. Didėjant konkurencijai mažų kalbų modelių (SLM) srityje, Phi-4-multimodal pristatomas kaip perspektyvi alternatyva didesniems modeliams, siūlantis pusiausvyrą tarp našumo ir apdorojimo pajėgumų pasiekiama net ir naudojant mažiau galingus įrenginius.
Esu technologijų entuziastas, savo „geek“ pomėgius pavertęs profesija. Daugiau nei 10 savo gyvenimo metų praleidau naudodamas pažangiausias technologijas ir iš gryno smalsumo kūriau visas programas. Dabar aš specializuojasi kompiuterinėse technologijose ir vaizdo žaidimuose. Taip yra todėl, kad daugiau nei 5 metus rašau įvairioms interneto svetainėms apie technologijas ir vaizdo žaidimus, kurdamas straipsnius, kuriuose noriu pateikti jums reikalingą informaciją visiems suprantama kalba.
Jei turite klausimų, mano žinios svyruoja nuo visko, kas susiję su Windows operacine sistema, taip pat su Android mobiliesiems telefonams. Ir aš įsipareigoju jums, aš visada pasiruošęs skirti kelias minutes ir padėti jums išspręsti visus klausimus, kurie jums gali kilti šiame interneto pasaulyje.