Microsoft Phi-4 Multimodal: AI që kupton zërin, imazhet dhe tekstin

Përditësimi i fundit: 27/02/2025

  • Microsoft lëshon Phi-4-multimodal, një model i AI që përpunon zërin, imazhet dhe tekstin në të njëjtën kohë.
  • Me 5.600 miliardë parametra, ai tejkalon modelet më të mëdha në njohjen e zërit dhe vizionit.
  • Përfshin Phi-4-mini, një version i fokusuar ekskluzivisht në detyrat e përpunimit të tekstit.
  • Në dispozicion në Azure AI Foundry, Hugging Face dhe NVIDIA, me aplikacione të ndryshme në biznes dhe arsim.
Çfarë është Phi-4 multimodal-0

Microsoft ka bërë një hap përpara në botën e modeleve gjuhësore me Phi-4 multimodal, inteligjenca artificiale e saj më e fundit dhe më e avancuar e aftë për të përpunuar njëkohësisht tekst, imazhe dhe zë. Ky model, së bashku me Phi-4-mini, përfaqëson një Evolucioni në kapacitetin e modeleve të vogla (SLM), duke ofruar efikasitet dhe saktësi pa pasur nevojë për sasi të mëdha parametrash.

Ardhja e Phi-4-multimodal jo vetëm që përfaqëson një përmirësim teknologjik për Microsoft-in, por gjithashtu Ai konkurron drejtpërdrejt me modelet më të mëdha si ato nga Google dhe Anthropic. Arkitektura e saj e optimizuar dhe aftësitë e përparuara të arsyetimit e bëjnë atë një opsion tërheqës për aplikime të shumta, nga përkthimi me makinë deri te njohja e imazhit dhe zërit.

Përmbajtje ekskluzive - Kliko këtu  Widgetet e reja Material You të Gemini mbërrijnë në Android.

Çfarë është Phi-4-multimodal dhe si funksionon?

Phi-4 Microsoft

Phi-4-multimodal është një model i AI i zhvilluar nga Microsoft që mund të përpunojë njëkohësisht tekstin, imazhet dhe zërin. Ndryshe nga modelet tradicionale që funksionojnë me një modalitet të vetëm, kjo inteligjencë artificiale integron burime të ndryshme informacioni në një hapësirë ​​të vetme përfaqësimi, falë përdorimit të teknikave të të mësuarit të kryqëzuar.

Modeli është ndërtuar mbi një arkitekturë të 5.600 miliardë parametra, duke përdorur një teknikë të njohur si LoRAs (Përshtatje me gradë të ulët) për të bashkuar lloje të ndryshme të dhënash. Kjo mundëson saktësi më të madhe në përpunimin e gjuhës dhe interpretim më të thellë të kontekstit.

Aftësitë dhe përfitimet kryesore

Phi-4-multimodal është veçanërisht efektiv në disa detyra kyçe që kërkojnë një nivel të lartë të inteligjencës artificiale:

  • Njohja e fjalës: Ai tejkalon modelet e specializuara si WhisperV3 në testet e transkriptimit dhe të përkthimit me makinë.
  • Përpunimi i imazhit: Ai është i aftë të interpretojë dokumente, grafikë dhe të kryejë OCR me saktësi të madhe.
  • Konkluzioni me vonesë të ulët: Kjo e lejon atë të funksionojë në pajisje të lëvizshme dhe me fuqi të ulët pa sakrifikuar performancën.
  • Integrim pa probleme midis modaliteteve: Aftësia e tyre për të kuptuar tekstin, fjalimin dhe imazhet së bashku përmirëson arsyetimin e tyre kontekstual.
Përmbajtje ekskluzive - Kliko këtu  AMD dhe Stability AI revolucionarizojnë renderimin lokal të AI në laptopë me Amuse 3.1

Krahasimi me modelet e tjera

PHI-4-performancë shumëmodale

Për sa i përket performancës, Phi-4-multimodal është dëshmuar të jetë në të njëjtin nivel me modelet më të mëdha. Krahasuar me Gemini-2-Flash-lite dhe Claude-3.5-Sonnet, arrin rezultate të ngjashme në detyrat multimodale, duke ruajtur efikasitetin superior falë dizajnit të tij kompakt.

Megjithatë, paraqet kufizime të caktuara në pyetjet dhe përgjigjet e bazuara në zë, ku modele si GPT-4o dhe Gemini-2.0-Flash kanë një avantazh. Kjo është për shkak të madhësisë së modelit më të vogël, gjë që ndikon në ruajtjen e njohurive faktike. Microsoft ka treguar se po punon për të përmirësuar këtë aftësi në versionet e ardhshme.

Phi-4-mini: vëllai i vogël i Phi-4-multimodal

Së bashku me Phi-4-multimodal, Microsoft ka nisur gjithashtu Phi-4-mini, një variant i optimizuar për detyra specifike të bazuara në tekst. Ky model është krijuar për të ofruar efikasitet i lartë në përpunimin e gjuhës natyrore, duke e bërë atë ideal për chatbot, asistentë virtualë dhe aplikacione të tjera që kërkojnë kuptim të saktë dhe gjenerim të tekstit.

Disponueshmëria dhe aplikacionet

Çfarë është Phi-4 multimodal-5

Microsoft ka vënë Phi-4-multimodal dhe Phi-4-mini të disponueshme për zhvilluesit përmes Azure AI Foundry, Hugging Face dhe Katalogu NVIDIA API. Kjo do të thotë që çdo kompani ose përdorues me akses në këto platforma mund të fillojë të eksperimentojë me modelin dhe ta zbatojë atë në skenarë të ndryshëm.

Përmbajtje ekskluzive - Kliko këtu  Gemma 3n: Sipërmarrja e re e Google për të sjellë inteligjencën artificiale të përparuar në çdo pajisje

Duke pasur parasysh qasjen e tij multimodale, Phi-4 është Që synojnë sektorë të tillë si:

  • Përkthim me makinë dhe titra në kohë reale.
  • Njohja dhe analiza e dokumenteve për bizneset.
  • Aplikacione celulare me asistentë inteligjentë.
  • Modele arsimore për të përmirësuar mësimdhënien e bazuar në AI.

Microsoft ka dhënë një kthesë interesante me këto modele duke u fokusuar në efikasitetin dhe shkallëzueshmërinë. Me rritjen e konkurrencës në fushën e modeleve të gjuhëve të vogla (SLM), Phi-4-multimodal paraqitet si një alternativë e mundshme për modelet më të mëdha, duke ofruar një ekuilibër midis performancës dhe kapacitetit përpunues i aksesueshëm edhe në pajisje më pak të fuqishme.