Microsoft Phi-4 Multimodal: gervigreind sem skilur rödd, myndir og texta

Síðasta uppfærsla: 27/02/2025

  • Microsoft kynnir Phi-4-multimodal, gervigreind líkan sem vinnur rödd, myndir og texta samtímis.
  • Með 5.600 milljörðum færibreyta er það betri en stærri gerðir í radd- og sjóngreiningu.
  • Inniheldur Phi-4-mini, útgáfu sem einbeitir sér eingöngu að ritvinnsluverkefnum.
  • Fáanlegt á Azure AI Foundry, Hugging Face og NVIDIA, með fjölbreyttum forritum í viðskiptum og menntun.
Hvað er Phi-4 multimodal-0

Microsoft hefur tekið skref fram á við í heimi tungumálalíkana með fjölþættum Phi-4, nýjasta og fullkomnasta gervigreind þess sem er fær um að vinna úr texta, myndum og rödd samtímis. Þetta líkan, ásamt Phi-4-mini, táknar a Þróun í getu lítilla módel (SLM), sem býður upp á skilvirkni og nákvæmni án þess að þurfa mikið magn af breytum.

Tilkoma Phi-4-multimodal táknar ekki aðeins tæknilega framför fyrir Microsoft, heldur einnig Það keppir beint við stærri gerðir eins og þær frá Google og Anthropic. Bjartsýni arkitektúr þess og háþróaður rökhugsunargeta gera það aðlaðandi valkostur fyrir mörg forrit, allt frá vélþýðingu til mynd- og raddgreiningar.

Einkarétt efni - Smelltu hér  Nýju Material You smáforritin frá Gemini eru komin á Android.

Hvað er Phi-4-multimodal og hvernig virkar það?

Phi-4 Microsoft

Phi-4-multimodal er gervigreind líkan þróað af Microsoft sem getur samtímis unnið úr texta, myndum og rödd. Ólíkt hefðbundnum líkönum sem vinna með einni aðferð, samþættir þessi gervigreind ýmsar uppsprettur upplýsinga í eitt framsetningarrými, þökk sé notkun krossnámstækni.

Líkanið er byggt á arkitektúr af 5.600 milljarðar breytur, með því að nota tækni sem kallast LoRAs (Low-Rank Adaptations) til að sameina mismunandi tegundir gagna. Þetta gerir ráð fyrir meiri nákvæmni í málvinnslu og dýpri túlkun á samhengi.

Helstu eiginleikar og kostir

Phi-4-multimodal er sérstaklega árangursríkt við nokkur lykilverkefni sem krefjast mikils gervigreindar:

  • Talgreining: Það er betri en sérhæfðar gerðir eins og WhisperV3 í umritunar- og vélþýðingarprófum.
  • Myndvinnsla: Það er fær um að túlka skjöl, grafík og framkvæma OCR af mikilli nákvæmni.
  • Ályktun um lága biðtíma: Þetta gerir það kleift að keyra á farsímum og litlum tækjum án þess að fórna frammistöðu.
  • Óaðfinnanlegur samþætting milli aðferða: Hæfni þeirra til að skilja texta, tal og myndir saman bætir samhengishugsun þeirra.
Einkarétt efni - Smelltu hér  AMD og Stability AI gjörbylta staðbundinni AI-útgáfu á fartölvum með Amuse 3.1

Samanburður við aðrar gerðir

PHI-4-fjölmóta árangur

Hvað varðar frammistöðu hefur Phi-4-multimodal reynst á pari við stærri gerðir. Samanborið við Gemini-2-Flash-lite og Claude-3.5-Sonnet, nær svipuðum árangri í fjölþættum verkefnum, en viðheldur frábærri skilvirkni þökk sé þéttri hönnun.

Hins vegar, sýnir ákveðnar takmarkanir í raddbundnum spurningum og svörum, þar sem gerðir eins og GPT-4o og Gemini-2.0-Flash hafa yfirburði. Þetta er vegna smærri líkanarstærðar, sem hefur áhrif á varðveislu staðreyndaþekkingar. Microsoft hefur gefið til kynna að unnið sé að því að bæta þessa möguleika í framtíðarútgáfum.

Phi-4-mini: litli bróðir Phi-4-multimodal

Ásamt Phi-4-multimodal hefur Microsoft einnig hleypt af stokkunum Phi-4-mini, afbrigði sem er fínstillt fyrir ákveðin textatengd verkefni. Þetta líkan er hannað til að bjóða upp á mikil afköst í náttúrulegri málvinnslu, sem gerir það tilvalið fyrir spjallbotna, sýndaraðstoðarmenn og önnur forrit sem krefjast nákvæms skilnings og gerð texta.

Framboð og forrit

Hvað er Phi-4 multimodal-5

Microsoft hefur gert Phi-4-multimodal og Phi-4-mini aðgengilegar forriturum í gegnum Azure AI Foundry, Hugging Face og NVIDIA API vörulista. Þetta þýðir að hvaða fyrirtæki eða notandi sem hefur aðgang að þessum kerfum getur byrjað að gera tilraunir með líkanið og beitt því í mismunandi aðstæður.

Einkarétt efni - Smelltu hér  Gemma 3n: Nýtt verkefni Google til að færa háþróaða gervigreind í hvaða tæki sem er

Í ljósi fjölþættrar nálgunar er Phi-4 það Miðað við geira eins og:

  • Vélþýðing og rauntíma textun.
  • Skjalaviðurkenning og greining fyrir fyrirtæki.
  • Farsímaforrit með snjöllum aðstoðarmönnum.
  • Fræðslulíkön til að bæta gervigreindarkennslu.

Microsoft hefur gefið a áhugavert ívafi með þessum gerðum með því að einblína á skilvirkni og sveigjanleika. Með aukinni samkeppni á sviði lítilla tungumálalíkana (SLM), Phi-4-multimodal er kynnt sem raunhæfur valkostur við stærri gerðir, sem býður upp á jafnvægi milli frammistöðu og vinnslugetu aðgengileg jafnvel á minna öflugum tækjum.