- Microsoft lansira Phi-4-multimodal, AI model koji istovremeno obrađuje glas, slike i tekst.
- Sa 5.600 milijardi parametara, nadmašuje veće modele u prepoznavanju glasa i vida.
- Uključuje Phi-4-mini, verziju fokusiranu isključivo na zadatke obrade teksta.
- Dostupno na Azure AI Foundry, Hugging Face i NVIDIA, sa različitim aplikacijama u poslovanju i obrazovanju.
Microsoft je napravio korak naprijed u svijetu jezičkih modela sa multimodalnim Phi-4, njegova najnovija i najnaprednija umjetna inteligencija sposobna za simultanu obradu teksta, slika i glasa. Ovaj model, zajedno sa Phi-4-mini, predstavlja a Evolucija kapaciteta malih modela (SLM), nudeći efikasnost i tačnost bez potrebe za velikim količinama parametara.
Dolazak Phi-4-multimodal ne samo da predstavlja tehnološko poboljšanje za Microsoft, već i Direktno se takmiči s većim modelima kao što su Google i Anthropic. Njegova optimizirana arhitektura i napredne mogućnosti zaključivanja čine ga atraktivna opcija za više aplikacija, od mašinskog prevođenja do prepoznavanja slika i glasa.
Šta je Phi-4-multimodal i kako funkcionira?

Phi-4-multimodal je AI model koji je razvio Microsoft koji može istovremeno obraditi tekst, slike i glas. Za razliku od tradicionalnih modela koji rade s jednim modalitetom, ova umjetna inteligencija integrira različite izvore informacija u jedinstveni prostor za predstavljanje, zahvaljujući korištenju tehnika unakrsnog učenja.
Model je izgrađen na arhitekturi od 5.600 milijardi parametara, koristeći tehniku poznatu kao LoRAs (Low-Rank Adaptations) za spajanje različitih tipova podataka. Ovo omogućava veću preciznost u obradi jezika i dublju interpretaciju konteksta.
Ključne mogućnosti i prednosti
Phi-4-multimodal je posebno efikasan u nekoliko ključnih zadataka koji zahtijevaju visok nivo umjetne inteligencije:
- Prepoznavanje govora: Nadmašuje specijalizovane modele kao što je WhisperV3 u testovima transkripcije i mašinskog prevođenja.
- Obrada slike: U stanju je da interpretira dokumente, grafiku i izvrši OCR sa velikom preciznošću.
- Zaključak niske latencije: To mu omogućava da radi na mobilnim uređajima i uređajima male potrošnje bez žrtvovanja performansi.
- Besprekorna integracija između modaliteta: Njihova sposobnost da zajedno razumiju tekst, govor i slike poboljšava njihovo kontekstualno razmišljanje.
Poređenje sa ostalim modelima

U pogledu performansi, Phi-4-multimodal se pokazao u rangu sa većim modelima. U poređenju sa Gemini-2-Flash-lite i Claude-3.5-Sonnet, postiže slične rezultate u multimodalnim zadacima, zadržavajući vrhunsku efikasnost zahvaljujući svom kompaktnom dizajnu.
Međutim, predstavlja određena ograničenja u glasovnim pitanjima i odgovorima, gdje modeli poput GPT-4o i Gemini-2.0-Flash imaju prednost. To je zbog manje veličine modela, što utiče na zadržavanje činjeničnog znanja. Microsoft je naznačio da radi na poboljšanju ove mogućnosti u budućim verzijama.
Phi-4-mini: mlađi brat Phi-4-multimodal
Uz Phi-4-multimodal, lansirao se i Microsoft Phi-4-mini, varijanta optimizirana za specifične tekstualne zadatke. Ovaj model je dizajniran da ponudi visoka efikasnost u obradi prirodnog jezika, što ga čini idealnim za chat botove, virtuelne asistente i druge aplikacije koje zahtijevaju precizno razumijevanje i generiranje teksta.
Dostupnost i aplikacije

Microsoft je omogućio Phi-4-multimodal i Phi-4-mini programerima putem Azure AI Foundry, Hugging Face i NVIDIA API katalog. To znači da svaka kompanija ili korisnik koji ima pristup ovim platformama može početi eksperimentirati s modelom i primjenjivati ga u različitim scenarijima.
S obzirom na svoj multimodalni pristup, Phi-4 jeste Namijenjena sektorima kao što su:
- Mašinsko prevođenje i titlovanje u realnom vremenu.
- Prepoznavanje i analiza dokumenata za preduzeća.
- Mobilne aplikacije sa inteligentnim pomoćnicima.
- Obrazovni modeli za poboljšanje nastave zasnovane na umjetnoj inteligenciji.
Microsoft je dao a zanimljiv preokret sa ovim modelima fokusirajući se na efikasnost i skalabilnost. Uz sve veću konkurenciju u oblasti malih jezičkih modela (SLM), Phi-4-multimodal je predstavljen kao održiva alternativa većim modelima, nudeći ravnotežu između performansi i kapaciteta obrade dostupan čak i na manje moćnim uređajima.
Ja sam tehnološki entuzijasta koji je svoja "geek" interesovanja pretvorio u profesiju. Proveo sam više od 10 godina svog života koristeći najsavremeniju tehnologiju i petljajući po svim vrstama programa iz čiste radoznalosti. Sada sam se specijalizirao za kompjutersku tehnologiju i video igrice. To je zato što više od 5 godina pišem za razne web stranice o tehnologiji i video igricama, stvarajući članke koji nastoje dati vam potrebne informacije na jeziku koji je svima razumljiv.
Ako imate bilo kakvih pitanja, moje znanje seže od svega vezanog za Windows operativni sistem kao i Android za mobilne telefone. I moja posvećenost je vama, uvijek sam spreman potrošiti nekoliko minuta i pomoći vam da riješite sva pitanja koja imate u ovom svijetu interneta.