- ក្រុមហ៊ុន Microsoft បើកដំណើរការ Phi-4-multimodal ដែលជាគំរូ AI ដែលដំណើរការសំឡេង រូបភាព និងអត្ថបទក្នុងពេលដំណាលគ្នា។
- ជាមួយនឹងប៉ារ៉ាម៉ែត្រ 5.600 ពាន់លាន វាដំណើរការជាងម៉ូដែលធំជាងក្នុងការទទួលស្គាល់សំឡេង និងចក្ខុវិស័យ។
- រួមបញ្ចូល Phi-4-mini ដែលជាកំណែផ្តោតទាំងស្រុងលើកិច្ចការដំណើរការពាក្យ។
- មាននៅលើ Azure AI Foundry, Hugging Face និង NVIDIA ជាមួយនឹងកម្មវិធីចម្រុះក្នុងអាជីវកម្ម និងការអប់រំ។
ក្រុមហ៊ុន Microsoft បានបោះជំហានទៅមុខនៅក្នុងពិភពនៃគំរូភាសាជាមួយនឹង Multimodal Phi-4បញ្ញាសិប្បនិម្មិតចុងក្រោយបង្អស់ និងទំនើបបំផុតរបស់វា មានសមត្ថភាពដំណើរការអត្ថបទ រូបភាព និងសំឡេងក្នុងពេលដំណាលគ្នា។ ម៉ូដែលនេះរួមជាមួយនឹង Phi-4-mini តំណាងឱ្យ a ការវិវត្តន៍នៅក្នុងសមត្ថភាពនៃម៉ូដែលតូច (SLM) ផ្តល់នូវប្រសិទ្ធភាព និងភាពត្រឹមត្រូវដោយមិនចាំបាច់មានប៉ារ៉ាម៉ែត្រដ៏ធំ។
ការមកដល់នៃ Phi-4-multimodal មិនត្រឹមតែតំណាងឱ្យការកែលម្អបច្ចេកវិទ្យាសម្រាប់ក្រុមហ៊ុន Microsoft ប៉ុណ្ណោះទេ ថែមទាំង វាប្រកួតប្រជែងដោយផ្ទាល់ជាមួយម៉ូដែលធំ ៗ ដូចជាម៉ូដែលមកពី Google និង Anthropic. ស្ថាបត្យកម្មដែលបានធ្វើឱ្យប្រសើរឡើងនិងសមត្ថភាពហេតុផលកម្រិតខ្ពស់របស់វាធ្វើឱ្យវា។ ជម្រើសដ៏គួរឱ្យទាក់ទាញសម្រាប់កម្មវិធីជាច្រើន។ពីម៉ាស៊ីនបកប្រែទៅជារូបភាព និងសំឡេង។
តើអ្វីទៅជា Phi-4-multimodal ហើយតើវាដំណើរការយ៉ាងដូចម្តេច?

Phi-4-multimodal គឺជាគំរូ AI ដែលបង្កើតឡើងដោយក្រុមហ៊ុន Microsoft ដែលអាចដំណើរការអត្ថបទ រូបភាព និងសំឡេងក្នុងពេលដំណាលគ្នា។. មិនដូចគំរូប្រពៃណីដែលធ្វើការជាមួយម៉ូឌុលតែមួយទេ បញ្ញាសិប្បនិមិត្តនេះរួមបញ្ចូលប្រភពព័ត៌មានផ្សេងៗទៅក្នុងកន្លែងតំណាងតែមួយ ដោយសារការប្រើប្រាស់បច្ចេកទេសសិក្សាឆ្លងកាត់។
ម៉ូដែលនេះត្រូវបានសាងសង់នៅលើស្ថាបត្យកម្មនៃ 5.600 ពាន់លានប៉ារ៉ាម៉ែត្រដោយប្រើបច្ចេកទេសដែលគេស្គាល់ថាជា LoRAs (Low-Rank Adaptations) ដើម្បីបញ្ចូលគ្នានូវប្រភេទទិន្នន័យផ្សេងៗគ្នា។ នេះអនុញ្ញាតឱ្យមានភាពជាក់លាក់កាន់តែច្រើនក្នុងដំណើរការភាសា និងការបកស្រាយកាន់តែស៊ីជម្រៅនៃបរិបទ។
សមត្ថភាព និងអត្ថប្រយោជន៍សំខាន់ៗ
Phi-4-multimodal មានប្រសិទ្ធភាពជាពិសេសក្នុងកិច្ចការសំខាន់ៗមួយចំនួនដែលទាមទារកម្រិតខ្ពស់នៃបញ្ញាសិប្បនិម្មិត៖
- ការទទួលស្គាល់ការនិយាយ៖ វាដំណើរការលើសពីម៉ូដែលឯកទេសដូចជា WhisperV3 ក្នុងការធ្វើតេស្តប្រតិចារិក និងបកប្រែម៉ាស៊ីន។
- ដំណើរការរូបភាព៖ វាមានសមត្ថភាពបកប្រែឯកសារ ក្រាហ្វិក និងដំណើរការ OCR ជាមួយនឹងភាពត្រឹមត្រូវដ៏អស្ចារ្យ។
- ការសន្និដ្ឋាននៃភាពយឺតយ៉ាវទាប៖ នេះអនុញ្ញាតឱ្យវាដំណើរការលើឧបករណ៍ចល័ត និងថាមពលទាប ដោយមិនមានការលះបង់ដំណើរការ។
- ការរួមបញ្ចូលគ្នារវាងទម្រង់៖ សមត្ថភាពរបស់ពួកគេក្នុងការយល់អត្ថបទ ការនិយាយ និងរូបភាពរួមគ្នាធ្វើអោយប្រសើរឡើងនូវហេតុផលបរិបទរបស់ពួកគេ។
ការប្រៀបធៀបជាមួយម៉ូដែលផ្សេងទៀត។

នៅក្នុងលក្ខខណ្ឌនៃការអនុវត្ត Phi-4-multimodal បានបង្ហាញឱ្យឃើញថាមានភាពស្មើគ្នាជាមួយនឹងម៉ូដែលធំជាង។ បើប្រៀបធៀបទៅនឹង Gemini-2-Flash-lite និង Claude-3.5-Sonnetសម្រេចបានលទ្ធផលស្រដៀងគ្នានៅក្នុងកិច្ចការពហុមុខងារ ខណៈពេលដែលរក្សាបាននូវប្រសិទ្ធភាពខ្ពស់ ដោយសារការរចនាបង្រួមរបស់វា។
ទោះជាយ៉ាងណា, បង្ហាញពីដែនកំណត់ជាក់លាក់នៅក្នុងសំណួរ និងចម្លើយផ្អែកលើសំឡេងដែលជាកន្លែងដែលម៉ូដែលដូចជា GPT-4o និង Gemini-2.0-Flash មានអត្ថប្រយោជន៍មួយ។ នេះគឺដោយសារតែទំហំម៉ូដែលរបស់វាតូចជាង ដែលប៉ះពាល់ដល់ការរក្សាចំណេះដឹងជាក់ស្តែង. ក្រុមហ៊ុន Microsoft បានបង្ហាញថាខ្លួនកំពុងធ្វើការដើម្បីបង្កើនសមត្ថភាពនេះនៅក្នុងកំណែនាពេលអនាគត។
ភី-៤-មីនី៖ ប្អូនប្រុសតូចរបស់ភី-៤-ពហុមុខងារ
រួមជាមួយនឹង Phi-4-multimodal ក្រុមហ៊ុន Microsoft ក៏បានបើកដំណើរការផងដែរ។ ភី-៣.៥-មីនីវ៉ារ្យ៉ង់ដែលបានធ្វើឱ្យប្រសើរសម្រាប់កិច្ចការដែលមានមូលដ្ឋានលើអត្ថបទជាក់លាក់។ ម៉ូដែលនេះត្រូវបានរចនាឡើងដើម្បីផ្តល់ជូន ប្រសិទ្ធភាពខ្ពស់ក្នុងដំណើរការភាសាធម្មជាតិធ្វើឱ្យវាល្អសម្រាប់ chatbots ជំនួយការនិម្មិត និងកម្មវិធីផ្សេងទៀតដែលត្រូវការការយល់ដឹងត្រឹមត្រូវ និងការបង្កើតអត្ថបទ។
ភាពអាចរកបាន និងកម្មវិធី

ក្រុមហ៊ុន Microsoft បានធ្វើឱ្យ Phi-4-multimodal និង Phi-4-mini មានសម្រាប់អ្នកអភិវឌ្ឍន៍តាមរយៈ Azure AI Foundry, Hugging Face និង NVIDIA API Catalog. នេះមានន័យថាក្រុមហ៊ុន ឬអ្នកប្រើប្រាស់ណាដែលមានសិទ្ធិចូលប្រើវេទិកាទាំងនេះអាចចាប់ផ្តើមពិសោធន៍ជាមួយគំរូ និងអនុវត្តវាក្នុងស្ថានភាពផ្សេងៗគ្នា។
ដោយផ្អែកលើវិធីសាស្រ្តចម្រុះរបស់វា Phi-4 គឺ សំដៅលើវិស័យដូចជា:
- ការបកប្រែតាមម៉ាស៊ីន និងចំណងជើងរងក្នុងពេលជាក់ស្តែង។
- ការទទួលស្គាល់ឯកសារ និងការវិភាគសម្រាប់អាជីវកម្ម។
- កម្មវិធីទូរស័ព្ទដែលមានជំនួយការឆ្លាតវៃ។
- គំរូអប់រំដើម្បីកែលម្អការបង្រៀនដែលមានមូលដ្ឋានលើ AI ។
ក្រុមហ៊ុន Microsoft បានផ្តល់ឱ្យ ភាពទាក់ទាញគួរឱ្យចាប់អារម្មណ៍ជាមួយនឹងម៉ូដែលទាំងនេះដោយផ្តោតលើប្រសិទ្ធភាព និងការធ្វើមាត្រដ្ឋាន. ជាមួយនឹងការកើនឡើងនៃការប្រកួតប្រជែងក្នុងវិស័យគំរូភាសាតូច (SLM) Phi-4-multimodal ត្រូវបានបង្ហាញជាជម្រើសដែលអាចសម្រេចបានចំពោះម៉ូដែលធំជាងដោយផ្តល់នូវតុល្យភាពរវាងការអនុវត្ត និងសមត្ថភាពដំណើរការ អាចចូលប្រើបានសូម្បីតែនៅលើឧបករណ៍ដែលមានថាមពលតិចក៏ដោយ។.
ខ្ញុំជាអ្នកចូលចិត្តបច្ចេកវិទ្យាមួយរូបដែលបានបង្វែរចំណាប់អារម្មណ៍របស់គាត់ទៅជាអាជីព។ ខ្ញុំបានចំណាយពេលជាង 10 ឆ្នាំនៃជីវិតរបស់ខ្ញុំ ដោយប្រើបច្ចេកវិទ្យាទំនើបៗ និងការបញ្ចូលកម្មវិធីគ្រប់ប្រភេទ ដោយការចង់ដឹងចង់ឃើញ។ ឥឡូវនេះខ្ញុំមានជំនាញខាងបច្ចេកវិទ្យាកុំព្យូទ័រ និងវីដេអូហ្គេម។ នេះគឺដោយសារតែអស់រយៈពេលជាង 5 ឆ្នាំមកហើយដែលខ្ញុំបានសរសេរសម្រាប់គេហទំព័រផ្សេងៗអំពីបច្ចេកវិទ្យា និងវីដេអូហ្គេម ដោយបង្កើតអត្ថបទដែលស្វែងរកការផ្តល់ឱ្យអ្នកនូវព័ត៌មានដែលអ្នកត្រូវការជាភាសាដែលអាចយល់បានសម្រាប់មនុស្សគ្រប់គ្នា។
ប្រសិនបើអ្នកមានចម្ងល់ណាមួយ ចំណេះដឹងរបស់ខ្ញុំមានចាប់ពីអ្វីគ្រប់យ៉ាងដែលទាក់ទងនឹងប្រព័ន្ធប្រតិបត្តិការ Windows ក៏ដូចជា Android សម្រាប់ទូរស័ព្ទចល័ត។ ហើយការប្តេជ្ញាចិត្តរបស់ខ្ញុំគឺចំពោះអ្នក ខ្ញុំតែងតែសុខចិត្តចំណាយពេលពីរបីនាទី និងជួយអ្នកដោះស្រាយរាល់ចម្ងល់ដែលអ្នកអាចមាននៅក្នុងពិភពអ៊ីនធឺណិតនេះ។