Microsoft Phi-4 Multimodal: AI koja razumije glas, slike i tekst

Zadnje ažuriranje: 27/02/2025

  • Microsoft lansira Phi-4-multimodal, AI model koji istovremeno obrađuje glas, slike i tekst.
  • S 5.600 milijardi parametara nadmašuje veće modele u prepoznavanju glasa i vida.
  • Uključuje Phi-4-mini, verziju usmjerenu isključivo na zadatke obrade teksta.
  • Dostupno na Azure AI Foundry, Hugging Face i NVIDIA, s različitim aplikacijama u poslovanju i obrazovanju.
Što je Phi-4 multimodal-0

Microsoft je napravio korak naprijed u svijetu jezičnih modela s multimodalnim Phi-4, njegovu najnoviju i najnapredniju umjetnu inteligenciju sposobnu istovremeno obrađivati ​​tekst, slike i glas. Ovaj model, zajedno s Phi-4-mini, predstavlja a Evolucija u kapacitetu malih modela (SLM), nudeći učinkovitost i točnost bez potrebe za velikom količinom parametara.

Dolazak Phi-4-multimodal ne predstavlja samo tehnološko poboljšanje za Microsoft, već također Izravno se natječe s većim modelima poput onih iz Googlea i Anthropica. Njegova optimizirana arhitektura i napredne mogućnosti razmišljanja to čine atraktivna opcija za višestruke primjene, od strojnog prevođenja do prepoznavanja slika i glasa.

Ekskluzivan sadržaj - Kliknite ovdje  Geminijev novi Material You widget stiže na Android.

Što je Phi-4-multimodal i kako radi?

Phi-4 Microsoft

Phi-4-multimodal je AI model koji je razvio Microsoft koji može istovremeno obrađivati ​​tekst, slike i glas. Za razliku od tradicionalnih modela koji rade s jednim modalitetom, ova umjetna inteligencija integrira različite izvore informacija u jedinstven prostor reprezentacije, zahvaljujući korištenju tehnika unakrsnog učenja.

Model je izgrađen na arhitekturi od 5.600 milijardi parametara, koristeći tehniku ​​poznatu kao LoRAs (Low-Rank Adaptations) za spajanje različitih vrsta podataka. To omogućuje veću preciznost u jezičnoj obradi i dublju interpretaciju konteksta.

Ključne mogućnosti i prednosti

Phi-4-multimodal posebno je učinkovit u nekoliko ključnih zadataka koji zahtijevaju visoku razinu umjetne inteligencije:

  • Prepoznavanje govora: Nadmašuje specijalizirane modele kao što je WhisperV3 u testovima transkripcije i strojnog prevođenja.
  • Obrada slike: Sposoban je tumačiti dokumente, grafike i izvoditi OCR s velikom točnošću.
  • Zaključak niske latencije: To mu omogućuje rad na mobilnim uređajima i uređajima male snage bez žrtvovanja performansi.
  • Besprijekorna integracija između modaliteta: Njihova sposobnost razumijevanja teksta, govora i slika zajedno poboljšava njihovo kontekstualno zaključivanje.
Ekskluzivan sadržaj - Kliknite ovdje  AMD i Stability AI revolucioniraju lokalno AI renderiranje na prijenosnim računalima s Amuse 3.1

Usporedba s drugim modelima

PHI-4-multimodalna izvedba

Što se tiče performansi, Phi-4-multimodal pokazao se ravnopravnim s većim modelima. U usporedbi s Gemini-2-Flash-lite i Claude-3.5-Sonnet, postiže slične rezultate u multimodalnim zadacima, zadržavajući vrhunsku učinkovitost zahvaljujući svom kompaktnom dizajnu.

Međutim, predstavlja određena ograničenja u glasovnim pitanjima i odgovorima, gdje modeli poput GPT-4o i Gemini-2.0-Flash imaju prednost. To je zbog manje veličine modela, što utječe na zadržavanje činjeničnog znanja. Microsoft je naznačio da radi na poboljšanju ove mogućnosti u budućim verzijama.

Phi-4-mini: mali brat od Phi-4-multimodal

Uz Phi-4-multimodal, Microsoft je također lansirao Phi-4-mini, varijanta optimizirana za specifične tekstualne zadatke. Ovaj model je dizajniran da ponudi visoka učinkovitost u obradi prirodnog jezika, što ga čini idealnim za chatbotove, virtualne pomoćnike i druge aplikacije koje zahtijevaju točno razumijevanje i generiranje teksta.

Dostupnost i primjene

Što je Phi-4 multimodal-5

Microsoft je programerima omogućio Phi-4-multimodal i Phi-4-mini putem Azure AI Foundry, Hugging Face i NVIDIA API katalog. To znači da svaka tvrtka ili korisnik s pristupom ovim platformama može početi eksperimentirati s modelom i primjenjivati ​​ga u različitim scenarijima.

Ekskluzivan sadržaj - Kliknite ovdje  Gemma 3n: Googleov novi pothvat koji donosi naprednu umjetnu inteligenciju na bilo koji uređaj

S obzirom na svoj multimodalni pristup, Phi-4 je Usmjeren na sektore kao što su:

  • Strojno prevođenje i titlovanje u stvarnom vremenu.
  • Prepoznavanje i analiza dokumenata za tvrtke.
  • Mobilne aplikacije s inteligentnim pomoćnicima.
  • Obrazovni modeli za poboljšanje nastave temeljene na umjetnoj inteligenciji.

Microsoft je dao a zanimljiv zaokret s ovim modelima fokusiranjem na učinkovitost i skalabilnost. S povećanjem konkurencije u području malih jezičnih modela (SLM), Phi-4-multimodal predstavljen je kao održiva alternativa većim modelima, nudeći ravnotežu između performansi i kapaciteta obrade dostupan čak i na manje snažnim uređajima.