- Microsoft kynnir Phi-4-multimodal, gervigreind líkan sem vinnur rödd, myndir og texta samtímis.
- Með 5.600 milljörðum færibreyta er það betri en stærri gerðir í radd- og sjóngreiningu.
- Inniheldur Phi-4-mini, útgáfu sem einbeitir sér eingöngu að ritvinnsluverkefnum.
- Fáanlegt á Azure AI Foundry, Hugging Face og NVIDIA, með fjölbreyttum forritum í viðskiptum og menntun.
Microsoft hefur tekið skref fram á við í heimi tungumálalíkana með fjölþættum Phi-4, nýjasta og fullkomnasta gervigreind þess sem er fær um að vinna úr texta, myndum og rödd samtímis. Þetta líkan, ásamt Phi-4-mini, táknar a Þróun í getu lítilla módel (SLM), sem býður upp á skilvirkni og nákvæmni án þess að þurfa mikið magn af breytum.
Tilkoma Phi-4-multimodal táknar ekki aðeins tæknilega framför fyrir Microsoft, heldur einnig Það keppir beint við stærri gerðir eins og þær frá Google og Anthropic. Bjartsýni arkitektúr þess og háþróaður rökhugsunargeta gera það aðlaðandi valkostur fyrir mörg forrit, allt frá vélþýðingu til mynd- og raddgreiningar.
Hvað er Phi-4-multimodal og hvernig virkar það?

Phi-4-multimodal er gervigreind líkan þróað af Microsoft sem getur samtímis unnið úr texta, myndum og rödd. Ólíkt hefðbundnum líkönum sem vinna með einni aðferð, samþættir þessi gervigreind ýmsar uppsprettur upplýsinga í eitt framsetningarrými, þökk sé notkun krossnámstækni.
Líkanið er byggt á arkitektúr af 5.600 milljarðar breytur, með því að nota tækni sem kallast LoRAs (Low-Rank Adaptations) til að sameina mismunandi tegundir gagna. Þetta gerir ráð fyrir meiri nákvæmni í málvinnslu og dýpri túlkun á samhengi.
Helstu eiginleikar og kostir
Phi-4-multimodal er sérstaklega árangursríkt við nokkur lykilverkefni sem krefjast mikils gervigreindar:
- Talgreining: Það er betri en sérhæfðar gerðir eins og WhisperV3 í umritunar- og vélþýðingarprófum.
- Myndvinnsla: Það er fær um að túlka skjöl, grafík og framkvæma OCR af mikilli nákvæmni.
- Ályktun um lága biðtíma: Þetta gerir það kleift að keyra á farsímum og litlum tækjum án þess að fórna frammistöðu.
- Óaðfinnanlegur samþætting milli aðferða: Hæfni þeirra til að skilja texta, tal og myndir saman bætir samhengishugsun þeirra.
Samanburður við aðrar gerðir

Hvað varðar frammistöðu hefur Phi-4-multimodal reynst á pari við stærri gerðir. Samanborið við Gemini-2-Flash-lite og Claude-3.5-Sonnet, nær svipuðum árangri í fjölþættum verkefnum, en viðheldur frábærri skilvirkni þökk sé þéttri hönnun.
Hins vegar, sýnir ákveðnar takmarkanir í raddbundnum spurningum og svörum, þar sem gerðir eins og GPT-4o og Gemini-2.0-Flash hafa yfirburði. Þetta er vegna smærri líkanarstærðar, sem hefur áhrif á varðveislu staðreyndaþekkingar. Microsoft hefur gefið til kynna að unnið sé að því að bæta þessa möguleika í framtíðarútgáfum.
Phi-4-mini: litli bróðir Phi-4-multimodal
Ásamt Phi-4-multimodal hefur Microsoft einnig hleypt af stokkunum Phi-4-mini, afbrigði sem er fínstillt fyrir ákveðin textatengd verkefni. Þetta líkan er hannað til að bjóða upp á mikil afköst í náttúrulegri málvinnslu, sem gerir það tilvalið fyrir spjallbotna, sýndaraðstoðarmenn og önnur forrit sem krefjast nákvæms skilnings og gerð texta.
Framboð og forrit

Microsoft hefur gert Phi-4-multimodal og Phi-4-mini aðgengilegar forriturum í gegnum Azure AI Foundry, Hugging Face og NVIDIA API vörulista. Þetta þýðir að hvaða fyrirtæki eða notandi sem hefur aðgang að þessum kerfum getur byrjað að gera tilraunir með líkanið og beitt því í mismunandi aðstæður.
Í ljósi fjölþættrar nálgunar er Phi-4 það Miðað við geira eins og:
- Vélþýðing og rauntíma textun.
- Skjalaviðurkenning og greining fyrir fyrirtæki.
- Farsímaforrit með snjöllum aðstoðarmönnum.
- Fræðslulíkön til að bæta gervigreindarkennslu.
Microsoft hefur gefið a áhugavert ívafi með þessum gerðum með því að einblína á skilvirkni og sveigjanleika. Með aukinni samkeppni á sviði lítilla tungumálalíkana (SLM), Phi-4-multimodal er kynnt sem raunhæfur valkostur við stærri gerðir, sem býður upp á jafnvægi milli frammistöðu og vinnslugetu aðgengileg jafnvel á minna öflugum tækjum.
Ég er tækniáhugamaður sem hefur breytt "nörda" áhugamálum sínum í fag. Ég hef eytt meira en 10 árum af lífi mínu í að nota háþróaða tækni og fikta í alls kyns forritum af einskærri forvitni. Nú hef ég sérhæft mig í tölvutækni og tölvuleikjum. Þetta er vegna þess að í meira en 5 ár hef ég skrifað fyrir ýmsar vefsíður um tækni og tölvuleiki, búið til greinar sem leitast við að veita þér þær upplýsingar sem þú þarft á tungumáli sem er skiljanlegt fyrir alla.
Ef þú hefur einhverjar spurningar þá nær þekking mín frá öllu sem tengist Windows stýrikerfinu sem og Android fyrir farsíma. Og skuldbinding mín er til þín, ég er alltaf tilbúin að eyða nokkrum mínútum og hjálpa þér að leysa allar spurningar sem þú gætir haft í þessum internetheimi.