- Майкрософт компани Phi-4-multimodal буюу дуу хоолой, зураг, текстийг нэгэн зэрэг боловсруулдаг хиймэл оюун ухааны загварыг гаргажээ.
- 5.600 тэрбум параметртэй, дуу хоолой болон хараа таних чадвараараа том загваруудаас давж гардаг.
- Зөвхөн үг боловсруулахад зориулагдсан хувилбар болох Phi-4-mini-г агуулдаг.
- Azure AI Foundry, Hugging Face, NVIDIA дээр бизнес болон боловсролын салбарт олон төрлийн программуудыг ашиглах боломжтой.
Майкрософт олон төрлийн Phi-4-тэй хэлний загваруудын ертөнцөд нэг алхам урагшиллаа, түүний хамгийн сүүлийн үеийн, дэвшилтэт хиймэл оюун ухаан нь текст, зураг, дуу хоолойг нэгэн зэрэг боловсруулах чадвартай. Энэ загвар нь Phi-4-mini-тай хамт a Жижиг загваруудын хүчин чадал дахь хувьсал (SLM) нь асар их хэмжээний параметр шаарддаггүй үр ашиг, нарийвчлалыг санал болгодог.
Phi-4-multimodal-ийн ирэлт нь Microsoft-ын технологийн дэвшлийг илэрхийлээд зогсохгүй Энэ нь Google болон Anthropic зэрэг томоохон загваруудтай шууд өрсөлддөг. Түүний оновчтой архитектур, дэвшилтэт сэтгэх чадвар нь үүнийг бий болгодог олон програмын хувьд сонирхол татахуйц сонголт, машин орчуулгаас зураг, дуу хоолой таних хүртэл.
Phi-4-multimodal гэж юу вэ, энэ нь хэрхэн ажилладаг вэ?

Phi-4-multimodal нь текст, зураг, дуу хоолойг нэгэн зэрэг боловсруулах чадвартай Microsoft-ын бүтээсэн хиймэл оюун ухааны загвар юм.. Уламжлалт загваруудаас ялгаатай нь энэхүү хиймэл оюун ухаан нь харилцан суралцах арга техникийг ашигласны ачаар мэдээллийн янз бүрийн эх сурвалжийг нэг дүрслэлийн орон зайд нэгтгэдэг.
Энэхүү загвар нь архитектур дээр бүтээгдсэн 5.600 тэрбум параметр, өөр өөр төрлийн өгөгдлийг нэгтгэхийн тулд LoRAs (Бага зэрэглэлийн дасан зохицох) гэж нэрлэгддэг техникийг ашиглан. Энэ нь хэлний боловсруулалтыг илүү нарийвчлалтай болгож, контекстийг илүү гүнзгий тайлбарлах боломжийг олгодог.
Гол чадвар, ашиг тус
Phi-4-multimodal нь өндөр түвшний хиймэл оюун ухаан шаарддаг хэд хэдэн үндсэн ажлуудад ялангуяа үр дүнтэй байдаг.
- Яриа таних: Энэ нь транскрипц болон машин орчуулгын туршилтаар WhisperV3 зэрэг төрөлжсөн загваруудаас давуу юм.
- Зураг боловсруулах: Энэ нь баримт бичиг, графикийг тайлбарлах, OCR-ийг маш нарийвчлалтайгаар гүйцэтгэх чадвартай.
- Хоцролт багатай дүгнэлт: Энэ нь гүйцэтгэлийг алдагдуулахгүйгээр хөдөлгөөнт болон бага чадалтай төхөөрөмж дээр ажиллах боломжийг олгодог.
- Модал хоорондын саадгүй интеграцчилал: Текст, яриа, зургийг хамтад нь ойлгох чадвар нь контекстийн үндэслэлийг сайжруулдаг.
Бусад загваруудтай харьцуулах

Гүйцэтгэлийн хувьд Phi-4-multimodal нь том загваруудтай эн зэрэгцэх нь батлагдсан. Gemini-2-Flash-lite болон Claude-3.5-Sonnet-тэй харьцуулахад, авсаархан дизайны ачаар дээд зэргийн үр ашгийг хадгалахын зэрэгцээ олон төрлийн ажлуудад ижил төстэй үр дүнд хүрдэг.
Гэсэн хэдий ч, дуу хоолойд суурилсан асуулт, хариултуудад тодорхой хязгаарлалт тавьдаг, GPT-4o болон Gemini-2.0-Flash зэрэг загварууд давуу талтай. Энэ нь түүний жижиг загвартай холбоотой юм. Энэ нь бодит мэдлэгийг хадгалахад нөлөөлдөг. Майкрософт энэ боломжийг ирээдүйн хувилбаруудад сайжруулахаар ажиллаж байгаагаа мэдэгдэв.
Phi-4-mini: Phi-4-multimodal-ийн дүү
Phi-4-multimodal-ийн хамт Майкрософт ч мөн нээлтээ хийсэн Phi-4-мини, тодорхой текст дээр суурилсан ажлуудад оновчтой болгосон хувилбар. Энэ загвар нь санал болгох зорилготой юм байгалийн хэлний боловсруулалтын өндөр үр ашиг, энэ нь чатботууд, виртуал туслахууд болон текстийг зөв ойлгох, үүсгэх шаардлагатай бусад програмуудад тохиромжтой.
Боломж ба програмууд

Майкрософт нь Phi-4-multimodal болон Phi-4-mini-г хөгжүүлэгчидээр дамжуулан ашиглах боломжтой болгосон Azure AI Foundry, Hugging Face, болон NVIDIA API каталог. Энэ нь эдгээр платформд нэвтрэх эрхтэй аливаа компани эсвэл хэрэглэгч загвараа туршиж, өөр хувилбарт ашиглаж болно гэсэн үг юм.
Multimodal хандлагыг харгалзан үзвэл Phi-4 нь тийм юм зэрэг салбаруудад чиглэсэн:
- Машины орчуулга, бодит цагийн хадмал орчуулга.
- Бизнесийн баримт бичгийг хүлээн зөвшөөрөх, дүн шинжилгээ хийх.
- Ухаалаг туслахуудтай гар утасны програмууд.
- AI-д суурилсан сургалтыг сайжруулах боловсролын загварууд.
Майкрософт өгсөн үр ашиг, өргөтгөх чадварт анхаарлаа хандуулснаар эдгээр загваруудыг сонирхолтой эргүүлээрэй. Жижиг хэлний загвар (SLM) дахь өрсөлдөөн нэмэгдэж байгаатай холбогдуулан Phi-4-multimodal-ийг илүү том загварт ашиглах боломжтой хувилбар болгон танилцуулж байна, гүйцэтгэл болон боловсруулах хүчин чадал хоорондын тэнцвэрийг санал болгож байна бага чадалтай төхөөрөмж дээр ч ашиглах боломжтой.
Би өөрийн "геек" сонирхлоо мэргэжил болгож чадсан технологи сонирхогч хүн. Би амьдралынхаа 10 гаруй жилийг хамгийн сүүлийн үеийн технологи ашиглан, бүх төрлийн программыг сониуч зандаа зориулж өнгөрүүлсэн. Одоо би компьютерийн технологи, видео тоглоомоор мэргэшсэн. Учир нь би 5-аас дээш жил технологи, видео тоглоомын талаар янз бүрийн вэб сайтуудад зориулж, танд хэрэгтэй мэдээллийг хүн бүрт ойлгомжтой хэлээр өгөхийг зорьсон нийтлэлүүдийг бүтээж байна.
Хэрэв танд асуулт байгаа бол миний мэдлэг Windows үйлдлийн систем, гар утсанд зориулсан Android-тай холбоотой бүх зүйлээс хамаарна. Мөн миний амлалт бол таны өмнө, би үргэлж хэдэн минут зарцуулж, энэ интернет ертөнцөд байгаа бүх асуултыг шийдвэрлэхэд тань туслахад бэлэн байна.