Microsoft Phi-4 Multimodal: Дуу, зураг, текстийг ойлгодог хиймэл оюун ухаан

Сүүлийн шинэчлэлт: 27/02/2025

  • Майкрософт компани Phi-4-multimodal буюу дуу хоолой, зураг, текстийг нэгэн зэрэг боловсруулдаг хиймэл оюун ухааны загварыг гаргажээ.
  • 5.600 тэрбум параметртэй, дуу хоолой болон хараа таних чадвараараа том загваруудаас давж гардаг.
  • Зөвхөн үг боловсруулахад зориулагдсан хувилбар болох Phi-4-mini-г агуулдаг.
  • Azure AI Foundry, Hugging Face, NVIDIA дээр бизнес болон боловсролын салбарт олон төрлийн программуудыг ашиглах боломжтой.
Phi-4 multimodal-0 гэж юу вэ

Майкрософт олон төрлийн Phi-4-тэй хэлний загваруудын ертөнцөд нэг алхам урагшиллаа, түүний хамгийн сүүлийн үеийн, дэвшилтэт хиймэл оюун ухаан нь текст, зураг, дуу хоолойг нэгэн зэрэг боловсруулах чадвартай. Энэ загвар нь Phi-4-mini-тай хамт a Жижиг загваруудын хүчин чадал дахь хувьсал (SLM) нь асар их хэмжээний параметр шаарддаггүй үр ашиг, нарийвчлалыг санал болгодог.

Phi-4-multimodal-ийн ирэлт нь Microsoft-ын технологийн дэвшлийг илэрхийлээд зогсохгүй Энэ нь Google болон Anthropic зэрэг томоохон загваруудтай шууд өрсөлддөг. Түүний оновчтой архитектур, дэвшилтэт сэтгэх чадвар нь үүнийг бий болгодог олон програмын хувьд сонирхол татахуйц сонголт, машин орчуулгаас зураг, дуу хоолой таних хүртэл.

Онцгой контент - Энд дарна уу  Gemini-н шинэ Material You виджетүүд Android дээр ирлээ.

Phi-4-multimodal гэж юу вэ, энэ нь хэрхэн ажилладаг вэ?

Phi-4 Microsoft

Phi-4-multimodal нь текст, зураг, дуу хоолойг нэгэн зэрэг боловсруулах чадвартай Microsoft-ын бүтээсэн хиймэл оюун ухааны загвар юм.. Уламжлалт загваруудаас ялгаатай нь энэхүү хиймэл оюун ухаан нь харилцан суралцах арга техникийг ашигласны ачаар мэдээллийн янз бүрийн эх сурвалжийг нэг дүрслэлийн орон зайд нэгтгэдэг.

Энэхүү загвар нь архитектур дээр бүтээгдсэн 5.600 тэрбум параметр, өөр өөр төрлийн өгөгдлийг нэгтгэхийн тулд LoRAs (Бага зэрэглэлийн дасан зохицох) гэж нэрлэгддэг техникийг ашиглан. Энэ нь хэлний боловсруулалтыг илүү нарийвчлалтай болгож, контекстийг илүү гүнзгий тайлбарлах боломжийг олгодог.

Гол чадвар, ашиг тус

Phi-4-multimodal нь өндөр түвшний хиймэл оюун ухаан шаарддаг хэд хэдэн үндсэн ажлуудад ялангуяа үр дүнтэй байдаг.

  • Яриа таних: Энэ нь транскрипц болон машин орчуулгын туршилтаар WhisperV3 зэрэг төрөлжсөн загваруудаас давуу юм.
  • Зураг боловсруулах: Энэ нь баримт бичиг, графикийг тайлбарлах, OCR-ийг маш нарийвчлалтайгаар гүйцэтгэх чадвартай.
  • Хоцролт багатай дүгнэлт: Энэ нь гүйцэтгэлийг алдагдуулахгүйгээр хөдөлгөөнт болон бага чадалтай төхөөрөмж дээр ажиллах боломжийг олгодог.
  • Модал хоорондын саадгүй интеграцчилал: Текст, яриа, зургийг хамтад нь ойлгох чадвар нь контекстийн үндэслэлийг сайжруулдаг.
Онцгой контент - Энд дарна уу  AMD болон Stability AI нь Amuse 3.1-тэй зөөврийн компьютер дээр орон нутгийн хиймэл оюун ухааны дүрслэлийг өөрчилсөн

Бусад загваруудтай харьцуулах

PHI-4 - олон талт гүйцэтгэл

Гүйцэтгэлийн хувьд Phi-4-multimodal нь том загваруудтай эн зэрэгцэх нь батлагдсан. Gemini-2-Flash-lite болон Claude-3.5-Sonnet-тэй харьцуулахад, авсаархан дизайны ачаар дээд зэргийн үр ашгийг хадгалахын зэрэгцээ олон төрлийн ажлуудад ижил төстэй үр дүнд хүрдэг.

Гэсэн хэдий ч, дуу хоолойд суурилсан асуулт, хариултуудад тодорхой хязгаарлалт тавьдаг, GPT-4o болон Gemini-2.0-Flash зэрэг загварууд давуу талтай. Энэ нь түүний жижиг загвартай холбоотой юм. Энэ нь бодит мэдлэгийг хадгалахад нөлөөлдөг. Майкрософт энэ боломжийг ирээдүйн хувилбаруудад сайжруулахаар ажиллаж байгаагаа мэдэгдэв.

Phi-4-mini: Phi-4-multimodal-ийн дүү

Phi-4-multimodal-ийн хамт Майкрософт ч мөн нээлтээ хийсэн Phi-4-мини, тодорхой текст дээр суурилсан ажлуудад оновчтой болгосон хувилбар. Энэ загвар нь санал болгох зорилготой юм байгалийн хэлний боловсруулалтын өндөр үр ашиг, энэ нь чатботууд, виртуал туслахууд болон текстийг зөв ойлгох, үүсгэх шаардлагатай бусад програмуудад тохиромжтой.

Боломж ба програмууд

Phi-4 multimodal-5 гэж юу вэ

Майкрософт нь Phi-4-multimodal болон Phi-4-mini-г хөгжүүлэгчидээр дамжуулан ашиглах боломжтой болгосон Azure AI Foundry, Hugging Face, болон NVIDIA API каталог. Энэ нь эдгээр платформд нэвтрэх эрхтэй аливаа компани эсвэл хэрэглэгч загвараа туршиж, өөр хувилбарт ашиглаж болно гэсэн үг юм.

Онцгой контент - Энд дарна уу  Gemma 3n: Google-ийн дэвшилтэт хиймэл оюун ухааныг дурын төхөөрөмжид нэвтрүүлэх шинэ төсөл

Multimodal хандлагыг харгалзан үзвэл Phi-4 нь тийм юм зэрэг салбаруудад чиглэсэн:

  • Машины орчуулга, бодит цагийн хадмал орчуулга.
  • Бизнесийн баримт бичгийг хүлээн зөвшөөрөх, дүн шинжилгээ хийх.
  • Ухаалаг туслахуудтай гар утасны програмууд.
  • AI-д суурилсан сургалтыг сайжруулах боловсролын загварууд.

Майкрософт өгсөн үр ашиг, өргөтгөх чадварт анхаарлаа хандуулснаар эдгээр загваруудыг сонирхолтой эргүүлээрэй. Жижиг хэлний загвар (SLM) дахь өрсөлдөөн нэмэгдэж байгаатай холбогдуулан Phi-4-multimodal-ийг илүү том загварт ашиглах боломжтой хувилбар болгон танилцуулж байна, гүйцэтгэл болон боловсруулах хүчин чадал хоорондын тэнцвэрийг санал болгож байна бага чадалтай төхөөрөмж дээр ч ашиглах боломжтой.