- Microsoft lansira Phi-4-multimodal, AI model koji istovremeno obrađuje glas, slike i tekst.
- S 5.600 milijardi parametara nadmašuje veće modele u prepoznavanju glasa i vida.
- Uključuje Phi-4-mini, verziju usmjerenu isključivo na zadatke obrade teksta.
- Dostupno na Azure AI Foundry, Hugging Face i NVIDIA, s različitim aplikacijama u poslovanju i obrazovanju.
Microsoft je napravio korak naprijed u svijetu jezičnih modela s multimodalnim Phi-4, njegovu najnoviju i najnapredniju umjetnu inteligenciju sposobnu istovremeno obrađivati tekst, slike i glas. Ovaj model, zajedno s Phi-4-mini, predstavlja a Evolucija u kapacitetu malih modela (SLM), nudeći učinkovitost i točnost bez potrebe za velikom količinom parametara.
Dolazak Phi-4-multimodal ne predstavlja samo tehnološko poboljšanje za Microsoft, već također Izravno se natječe s većim modelima poput onih iz Googlea i Anthropica. Njegova optimizirana arhitektura i napredne mogućnosti razmišljanja to čine atraktivna opcija za višestruke primjene, od strojnog prevođenja do prepoznavanja slika i glasa.
Što je Phi-4-multimodal i kako radi?

Phi-4-multimodal je AI model koji je razvio Microsoft koji može istovremeno obrađivati tekst, slike i glas. Za razliku od tradicionalnih modela koji rade s jednim modalitetom, ova umjetna inteligencija integrira različite izvore informacija u jedinstven prostor reprezentacije, zahvaljujući korištenju tehnika unakrsnog učenja.
Model je izgrađen na arhitekturi od 5.600 milijardi parametara, koristeći tehniku poznatu kao LoRAs (Low-Rank Adaptations) za spajanje različitih vrsta podataka. To omogućuje veću preciznost u jezičnoj obradi i dublju interpretaciju konteksta.
Ključne mogućnosti i prednosti
Phi-4-multimodal posebno je učinkovit u nekoliko ključnih zadataka koji zahtijevaju visoku razinu umjetne inteligencije:
- Prepoznavanje govora: Nadmašuje specijalizirane modele kao što je WhisperV3 u testovima transkripcije i strojnog prevođenja.
- Obrada slike: Sposoban je tumačiti dokumente, grafike i izvoditi OCR s velikom točnošću.
- Zaključak niske latencije: To mu omogućuje rad na mobilnim uređajima i uređajima male snage bez žrtvovanja performansi.
- Besprijekorna integracija između modaliteta: Njihova sposobnost razumijevanja teksta, govora i slika zajedno poboljšava njihovo kontekstualno zaključivanje.
Usporedba s drugim modelima

Što se tiče performansi, Phi-4-multimodal pokazao se ravnopravnim s većim modelima. U usporedbi s Gemini-2-Flash-lite i Claude-3.5-Sonnet, postiže slične rezultate u multimodalnim zadacima, zadržavajući vrhunsku učinkovitost zahvaljujući svom kompaktnom dizajnu.
Međutim, predstavlja određena ograničenja u glasovnim pitanjima i odgovorima, gdje modeli poput GPT-4o i Gemini-2.0-Flash imaju prednost. To je zbog manje veličine modela, što utječe na zadržavanje činjeničnog znanja. Microsoft je naznačio da radi na poboljšanju ove mogućnosti u budućim verzijama.
Phi-4-mini: mali brat od Phi-4-multimodal
Uz Phi-4-multimodal, Microsoft je također lansirao Phi-4-mini, varijanta optimizirana za specifične tekstualne zadatke. Ovaj model je dizajniran da ponudi visoka učinkovitost u obradi prirodnog jezika, što ga čini idealnim za chatbotove, virtualne pomoćnike i druge aplikacije koje zahtijevaju točno razumijevanje i generiranje teksta.
Dostupnost i primjene

Microsoft je programerima omogućio Phi-4-multimodal i Phi-4-mini putem Azure AI Foundry, Hugging Face i NVIDIA API katalog. To znači da svaka tvrtka ili korisnik s pristupom ovim platformama može početi eksperimentirati s modelom i primjenjivati ga u različitim scenarijima.
S obzirom na svoj multimodalni pristup, Phi-4 je Usmjeren na sektore kao što su:
- Strojno prevođenje i titlovanje u stvarnom vremenu.
- Prepoznavanje i analiza dokumenata za tvrtke.
- Mobilne aplikacije s inteligentnim pomoćnicima.
- Obrazovni modeli za poboljšanje nastave temeljene na umjetnoj inteligenciji.
Microsoft je dao a zanimljiv zaokret s ovim modelima fokusiranjem na učinkovitost i skalabilnost. S povećanjem konkurencije u području malih jezičnih modela (SLM), Phi-4-multimodal predstavljen je kao održiva alternativa većim modelima, nudeći ravnotežu između performansi i kapaciteta obrade dostupan čak i na manje snažnim uređajima.
Ja sam tehnološki entuzijast koji je svoje "geek" interese pretvorio u profesiju. Proveo sam više od 10 godina svog života koristeći vrhunsku tehnologiju i petljajući sa svim vrstama programa iz čiste znatiželje. Sada sam se specijalizirao za računalne tehnologije i video igre. To je zato što sam više od 5 godina pisao za razne web stranice o tehnologiji i videoigrama, stvarajući članke koji vam nastoje dati informacije koje su vam potrebne na jeziku koji je svima razumljiv.
Ako imate bilo kakvih pitanja, moje znanje seže od svega vezanog uz Windows operativni sustav kao i Android za mobitele. I moja je posvećenost vama, uvijek sam spreman odvojiti nekoliko minuta i pomoći vam riješiti sva pitanja koja imate u ovom internetskom svijetu.