Microsoft Phi-4 Multimodal៖ AI ដែលយល់អំពីសំឡេង រូបភាព និងអត្ថបទ

បច្ចុប្បន្នភាពចុងក្រោយ៖ 27/02/2025
អ្នកនិពន្ធ: Alberto navarro

  • ក្រុមហ៊ុន Microsoft បើកដំណើរការ Phi-4-multimodal ដែលជាគំរូ AI ដែលដំណើរការសំឡេង រូបភាព និងអត្ថបទក្នុងពេលដំណាលគ្នា។
  • ជាមួយនឹងប៉ារ៉ាម៉ែត្រ 5.600 ពាន់លាន វាដំណើរការជាងម៉ូដែលធំជាងក្នុងការទទួលស្គាល់សំឡេង និងចក្ខុវិស័យ។
  • រួមបញ្ចូល Phi-4-mini ដែលជាកំណែផ្តោតទាំងស្រុងលើកិច្ចការដំណើរការពាក្យ។
  • មាននៅលើ Azure AI Foundry, Hugging Face និង NVIDIA ជាមួយនឹងកម្មវិធីចម្រុះក្នុងអាជីវកម្ម និងការអប់រំ។
តើអ្វីទៅជា Phi-4 multimodal-0

ក្រុមហ៊ុន Microsoft បានបោះជំហានទៅមុខនៅក្នុងពិភពនៃគំរូភាសាជាមួយនឹង Multimodal Phi-4បញ្ញាសិប្បនិម្មិតចុងក្រោយបង្អស់ និងទំនើបបំផុតរបស់វា មានសមត្ថភាពដំណើរការអត្ថបទ រូបភាព និងសំឡេងក្នុងពេលដំណាលគ្នា។ ម៉ូដែលនេះរួមជាមួយនឹង Phi-4-mini តំណាងឱ្យ a ការវិវត្តន៍នៅក្នុងសមត្ថភាពនៃម៉ូដែលតូច (SLM) ផ្តល់នូវប្រសិទ្ធភាព និងភាពត្រឹមត្រូវដោយមិនចាំបាច់មានប៉ារ៉ាម៉ែត្រដ៏ធំ។

ការមកដល់នៃ Phi-4-multimodal មិនត្រឹមតែតំណាងឱ្យការកែលម្អបច្ចេកវិទ្យាសម្រាប់ក្រុមហ៊ុន Microsoft ប៉ុណ្ណោះទេ ថែមទាំង វាប្រកួតប្រជែងដោយផ្ទាល់ជាមួយម៉ូដែលធំ ៗ ដូចជាម៉ូដែលមកពី Google និង Anthropic. ស្ថាបត្យកម្មដែលបានធ្វើឱ្យប្រសើរឡើងនិងសមត្ថភាពហេតុផលកម្រិតខ្ពស់របស់វាធ្វើឱ្យវា។ ជម្រើសដ៏គួរឱ្យទាក់ទាញសម្រាប់កម្មវិធីជាច្រើន។ពីម៉ាស៊ីនបកប្រែទៅជារូបភាព និងសំឡេង។

មាតិកាផ្តាច់មុខ - ចុចទីនេះ  AI stethoscope ដែលកំណត់ស្ថានភាពបេះដូងបីក្នុងរយៈពេល 15 វិនាទី

តើអ្វីទៅជា Phi-4-multimodal ហើយតើវាដំណើរការយ៉ាងដូចម្តេច?

Phi-4 Microsoft

Phi-4-multimodal គឺជាគំរូ AI ដែលបង្កើតឡើងដោយក្រុមហ៊ុន Microsoft ដែលអាចដំណើរការអត្ថបទ រូបភាព និងសំឡេងក្នុងពេលដំណាលគ្នា។. មិនដូចគំរូប្រពៃណីដែលធ្វើការជាមួយម៉ូឌុលតែមួយទេ បញ្ញាសិប្បនិមិត្តនេះរួមបញ្ចូលប្រភពព័ត៌មានផ្សេងៗទៅក្នុងកន្លែងតំណាងតែមួយ ដោយសារការប្រើប្រាស់បច្ចេកទេសសិក្សាឆ្លងកាត់។

ម៉ូដែលនេះត្រូវបានសាងសង់នៅលើស្ថាបត្យកម្មនៃ 5.600 ពាន់លានប៉ារ៉ាម៉ែត្រដោយប្រើបច្ចេកទេសដែលគេស្គាល់ថាជា LoRAs (Low-Rank Adaptations) ដើម្បីបញ្ចូលគ្នានូវប្រភេទទិន្នន័យផ្សេងៗគ្នា។ នេះអនុញ្ញាតឱ្យមានភាពជាក់លាក់កាន់តែច្រើនក្នុងដំណើរការភាសា និងការបកស្រាយកាន់តែស៊ីជម្រៅនៃបរិបទ។

សមត្ថភាព និងអត្ថប្រយោជន៍សំខាន់ៗ

Phi-4-multimodal មានប្រសិទ្ធភាពជាពិសេសក្នុងកិច្ចការសំខាន់ៗមួយចំនួនដែលទាមទារកម្រិតខ្ពស់នៃបញ្ញាសិប្បនិម្មិត៖

  • ការទទួលស្គាល់ការនិយាយ៖ វាដំណើរការលើសពីម៉ូដែលឯកទេសដូចជា WhisperV3 ក្នុងការធ្វើតេស្តប្រតិចារិក និងបកប្រែម៉ាស៊ីន។
  • ដំណើរការរូបភាព៖ វាមានសមត្ថភាពបកប្រែឯកសារ ក្រាហ្វិក និងដំណើរការ OCR ជាមួយនឹងភាពត្រឹមត្រូវដ៏អស្ចារ្យ។
  • ការសន្និដ្ឋាននៃភាពយឺតយ៉ាវទាប៖ នេះអនុញ្ញាតឱ្យវាដំណើរការលើឧបករណ៍ចល័ត និងថាមពលទាប ដោយមិនមានការលះបង់ដំណើរការ។
  • ការរួមបញ្ចូលគ្នារវាងទម្រង់៖ សមត្ថភាពរបស់ពួកគេក្នុងការយល់អត្ថបទ ការនិយាយ និងរូបភាពរួមគ្នាធ្វើអោយប្រសើរឡើងនូវហេតុផលបរិបទរបស់ពួកគេ។
មាតិកាផ្តាច់មុខ - ចុចទីនេះ  Google បើកដំណើរការ Gemma 3៖ AI ប្រភពបើកចំហរកម្រិតខ្ពស់បំផុតសម្រាប់ GPU តែមួយ

ការប្រៀបធៀបជាមួយម៉ូដែលផ្សេងទៀត។

ការអនុវត្ត PHI-4-ពហុមុខងារ

នៅក្នុងលក្ខខណ្ឌនៃការអនុវត្ត Phi-4-multimodal បានបង្ហាញឱ្យឃើញថាមានភាពស្មើគ្នាជាមួយនឹងម៉ូដែលធំជាង។ បើប្រៀបធៀបទៅនឹង Gemini-2-Flash-lite និង Claude-3.5-Sonnetសម្រេចបានលទ្ធផលស្រដៀងគ្នានៅក្នុងកិច្ចការពហុមុខងារ ខណៈពេលដែលរក្សាបាននូវប្រសិទ្ធភាពខ្ពស់ ដោយសារការរចនាបង្រួមរបស់វា។

ទោះជាយ៉ាងណា, បង្ហាញពីដែនកំណត់ជាក់លាក់នៅក្នុងសំណួរ និងចម្លើយផ្អែកលើសំឡេងដែលជាកន្លែងដែលម៉ូដែលដូចជា GPT-4o និង Gemini-2.0-Flash មានអត្ថប្រយោជន៍មួយ។ នេះគឺដោយសារតែទំហំម៉ូដែលរបស់វាតូចជាង ដែលប៉ះពាល់ដល់ការរក្សាចំណេះដឹងជាក់ស្តែង. ក្រុមហ៊ុន Microsoft បានបង្ហាញថាខ្លួនកំពុងធ្វើការដើម្បីបង្កើនសមត្ថភាពនេះនៅក្នុងកំណែនាពេលអនាគត។

ភី-៤-មីនី៖ ប្អូនប្រុសតូចរបស់ភី-៤-ពហុមុខងារ

រួមជាមួយនឹង Phi-4-multimodal ក្រុមហ៊ុន Microsoft ក៏បានបើកដំណើរការផងដែរ។ ភី-៣.៥-មីនីវ៉ារ្យ៉ង់ដែលបានធ្វើឱ្យប្រសើរសម្រាប់កិច្ចការដែលមានមូលដ្ឋានលើអត្ថបទជាក់លាក់។ ម៉ូដែលនេះត្រូវបានរចនាឡើងដើម្បីផ្តល់ជូន ប្រសិទ្ធភាពខ្ពស់ក្នុងដំណើរការភាសាធម្មជាតិធ្វើឱ្យវាល្អសម្រាប់ chatbots ជំនួយការនិម្មិត និងកម្មវិធីផ្សេងទៀតដែលត្រូវការការយល់ដឹងត្រឹមត្រូវ និងការបង្កើតអត្ថបទ។

ភាពអាចរកបាន និងកម្មវិធី

តើអ្វីទៅជា Phi-4 multimodal-5

ក្រុមហ៊ុន Microsoft បានធ្វើឱ្យ Phi-4-multimodal និង Phi-4-mini មានសម្រាប់អ្នកអភិវឌ្ឍន៍តាមរយៈ Azure AI Foundry, Hugging Face និង NVIDIA API Catalog. នេះមានន័យថាក្រុមហ៊ុន ឬអ្នកប្រើប្រាស់ណាដែលមានសិទ្ធិចូលប្រើវេទិកាទាំងនេះអាចចាប់ផ្តើមពិសោធន៍ជាមួយគំរូ និងអនុវត្តវាក្នុងស្ថានភាពផ្សេងៗគ្នា។

មាតិកាផ្តាច់មុខ - ចុចទីនេះ  ល្បិចសាមញ្ញមួយបោកប្រាស់ ChatGPT ហើយលាតត្រដាងគ្រាប់ចុចវីនដូ

ដោយផ្អែកលើវិធីសាស្រ្តចម្រុះរបស់វា Phi-4 គឺ សំដៅលើវិស័យដូចជា:

  • ការបកប្រែតាមម៉ាស៊ីន និងចំណងជើងរងក្នុងពេលជាក់ស្តែង។
  • ការទទួលស្គាល់ឯកសារ និងការវិភាគសម្រាប់អាជីវកម្ម។
  • កម្មវិធីទូរស័ព្ទដែលមានជំនួយការឆ្លាតវៃ។
  • គំរូអប់រំដើម្បីកែលម្អការបង្រៀនដែលមានមូលដ្ឋានលើ AI ។

ក្រុមហ៊ុន Microsoft បានផ្តល់ឱ្យ ភាពទាក់ទាញគួរឱ្យចាប់អារម្មណ៍ជាមួយនឹងម៉ូដែលទាំងនេះដោយផ្តោតលើប្រសិទ្ធភាព និងការធ្វើមាត្រដ្ឋាន. ជាមួយនឹងការកើនឡើងនៃការប្រកួតប្រជែងក្នុងវិស័យគំរូភាសាតូច (SLM) Phi-4-multimodal ត្រូវបានបង្ហាញជាជម្រើសដែលអាចសម្រេចបានចំពោះម៉ូដែលធំជាងដោយផ្តល់នូវតុល្យភាពរវាងការអនុវត្ត និងសមត្ថភាពដំណើរការ អាចចូលប្រើបានសូម្បីតែនៅលើឧបករណ៍ដែលមានថាមពលតិចក៏ដោយ។.