- Microsoft ເປີດຕົວ Phi-4-multimodal, ຮູບແບບ AI ທີ່ປະມວນຜົນສຽງ, ຮູບພາບ ແລະຂໍ້ຄວາມພ້ອມໆກັນ.
- ດ້ວຍ 5.600 ຕື້ພາລາມິເຕີ, ມັນປະຕິບັດຕົວແບບຂະຫນາດໃຫຍ່ກວ່າໃນການຮັບຮູ້ສຽງແລະການເບິ່ງເຫັນ.
- ລວມມີ Phi-4-mini, ສະບັບທີ່ເນັ້ນໃສ່ວຽກການປະມວນຜົນຄໍາເທົ່ານັ້ນ.
- ມີຢູ່ໃນ Azure AI Foundry, Hugging Face, ແລະ NVIDIA, ດ້ວຍແອັບພລິເຄຊັນທີ່ຫຼາກຫຼາຍທາງດ້ານທຸລະກິດ ແລະການສຶກສາ.
Microsoft ໄດ້ກ້າວໄປຂ້າງໜ້າໃນໂລກຂອງຕົວແບບພາສາດ້ວຍ multimodal Phi-4, ປັນຍາປະດິດຫລ້າສຸດ ແລະ ກ້າວຫນ້າທາງດ້ານທີ່ສຸດ ທີ່ສາມາດປະມວນຜົນຂໍ້ຄວາມ, ຮູບພາບ ແລະສຽງໄດ້ພ້ອມກັນ. ຮູບແບບນີ້, ຮ່ວມກັບ Phi-4-mini, ເປັນຕົວແທນ a evolution ໃນຄວາມສາມາດຂອງຕົວແບບຂະຫນາດນ້ອຍ (SLM), ສະເຫນີປະສິດທິພາບແລະຄວາມຖືກຕ້ອງໂດຍບໍ່ຈໍາເປັນຕ້ອງມີພາລາມິເຕີຈໍານວນຫຼວງຫຼາຍ.
ການມາຮອດຂອງ Phi-4-multimodal ບໍ່ພຽງແຕ່ເປັນຕົວແທນຂອງການປັບປຸງເຕັກໂນໂລຢີສໍາລັບ Microsoft, ແຕ່ຍັງ ມັນແຂ່ງຂັນໂດຍກົງກັບຕົວແບບຂະຫນາດໃຫຍ່ເຊັ່ນຈາກ Google ແລະ Anthropic. ສະຖາປັດຕະຍະກໍາທີ່ດີທີ່ສຸດແລະຄວາມສາມາດສົມເຫດສົມຜົນກ້າວຫນ້າຂອງມັນເຮັດໃຫ້ມັນ ທາງເລືອກທີ່ຫນ້າສົນໃຈສໍາລັບຄໍາຮ້ອງສະຫມັກທີ່ຫຼາກຫຼາຍ, ຈາກການແປພາສາເຄື່ອງໄປຫາຮູບພາບແລະການຮັບຮູ້ສຽງ.
Phi-4-multimodal ແມ່ນຫຍັງ ແລະມັນເຮັດວຽກແນວໃດ?

Phi-4-multimodal ເປັນຕົວແບບ AI ທີ່ພັດທະນາໂດຍ Microsoft ທີ່ສາມາດປະມວນຜົນຂໍ້ຄວາມ, ຮູບພາບ ແລະສຽງໄດ້ພ້ອມກັນ.. ບໍ່ເຫມືອນກັບແບບດັ້ງເດີມທີ່ເຮັດວຽກກັບໂມດູນດຽວ, ປັນຍາປະດິດນີ້ລວມເອົາແຫຼ່ງຂໍ້ມູນຕ່າງໆເຂົ້າໄປໃນພື້ນທີ່ເປັນຕົວແທນດຽວ, ຍ້ອນການນໍາໃຊ້ເຕັກນິກການຮຽນຮູ້ຂ້າມ.
ຮູບແບບດັ່ງກ່າວຖືກສ້າງຂຶ້ນໃນສະຖາປັດຕະຍະກໍາຂອງ 5.600 ຕື້ພາລາມິເຕີ, ການນໍາໃຊ້ເຕັກນິກທີ່ເອີ້ນວ່າ LoRAs (ການປັບຕົວຕ່ໍາ) ເພື່ອລວມຂໍ້ມູນປະເພດຕ່າງໆ. ນີ້ອະນຸຍາດໃຫ້ມີຄວາມຊັດເຈນຫຼາຍຂຶ້ນໃນການປຸງແຕ່ງພາສາແລະການຕີຄວາມເລິກຂອງສະພາບການ.
ຄວາມສາມາດແລະຜົນປະໂຫຍດທີ່ສໍາຄັນ
Phi-4-multimodal ແມ່ນມີປະສິດຕິຜົນໂດຍສະເພາະໃນຫຼາຍໜ້າວຽກທີ່ຕ້ອງໃຊ້ປັນຍາປະດິດລະດັບສູງ:
- ການຮັບຮູ້ການປາກເວົ້າ: ມັນປະຕິບັດໄດ້ດີກວ່າແບບພິເສດເຊັ່ນ WhisperV3 ໃນການທົດສອບການຖອດຂໍ້ຄວາມແລະການແປດ້ວຍເຄື່ອງຈັກ.
- ການປະມວນຜົນຮູບພາບ: ມັນເປັນຄວາມສາມາດຂອງການແປເອກະສານ, ຮູບພາບແລະການປະຕິບັດ OCR ກັບຄວາມຖືກຕ້ອງທີ່ຍິ່ງໃຫຍ່.
- ການຊີ້ນຳການຊັກຊ້າຕ່ຳ: ນີ້ອະນຸຍາດໃຫ້ມັນດໍາເນີນການໃນອຸປະກອນມືຖືແລະພະລັງງານຕ່ໍາໂດຍບໍ່ມີການເສຍສະລະປະສິດທິພາບ.
- ການເຊື່ອມໂຍງຢ່າງບໍ່ຕິດຂັດລະຫວ່າງ modalities: ຄວາມສາມາດຂອງເຂົາເຈົ້າທີ່ຈະເຂົ້າໃຈຂໍ້ຄວາມ, ການປາກເວົ້າແລະຮູບພາບຮ່ວມກັນປັບປຸງການສົມເຫດສົມຜົນສະພາບການຂອງເຂົາເຈົ້າ.
ການປຽບທຽບກັບແບບອື່ນໆ

ໃນແງ່ຂອງການປະຕິບັດ, Phi-4-multimodal ໄດ້ພິສູດໃຫ້ເຫັນວ່າທຽບເທົ່າກັບຕົວແບບຂະຫນາດໃຫຍ່. ເມື່ອປຽບທຽບກັບ Gemini-2-Flash-lite ແລະ Claude-3.5-Sonnet, ບັນລຸຜົນໄດ້ຮັບທີ່ຄ້າຍຄືກັນໃນວຽກງານ multimodal, ໃນຂະນະທີ່ຮັກສາປະສິດທິພາບດີກວ່າຂໍຂອບໃຈກັບການອອກແບບທີ່ຫນາແຫນ້ນຂອງມັນ.
ເຖິງຢ່າງໃດກໍ່ຕາມ, ນໍາສະເຫນີຂໍ້ຈໍາກັດບາງຢ່າງໃນຄໍາຖາມແລະຄໍາຕອບທີ່ອີງໃສ່ສຽງ, ບ່ອນທີ່ຕົວແບບເຊັ່ນ GPT-4o ແລະ Gemini-2.0-Flash ມີປະໂຫຍດ. ນີ້ແມ່ນເນື່ອງມາຈາກຂະຫນາດຂອງຕົວແບບທີ່ນ້ອຍກວ່າ, ເຊິ່ງສົ່ງຜົນກະທົບຕໍ່ການຮັກສາຄວາມຮູ້ຄວາມເປັນຈິງ. Microsoft ໄດ້ຊີ້ໃຫ້ເຫັນວ່າມັນກໍາລັງເຮັດວຽກເພື່ອປັບປຸງຄວາມສາມາດນີ້ໃນຮຸ່ນໃນອະນາຄົດ.
Phi-4-mini: ນ້ອງນ້ອຍຂອງ Phi-4-multimodal
ຄຽງຄູ່ກັບ Phi-4-multimodal, Microsoft ຍັງໄດ້ເປີດຕົວ Phi-4-mini, ເປັນຕົວແປທີ່ປັບໃຫ້ເໝາະສົມສຳລັບວຽກທີ່ອີງໃສ່ຂໍ້ຄວາມສະເພາະ. ຮູບແບບນີ້ຖືກອອກແບບມາເພື່ອສະເຫນີ ປະສິດທິພາບສູງໃນການປຸງແຕ່ງພາສາທໍາມະຊາດ, ເຮັດໃຫ້ມັນເຫມາະສົມສໍາລັບ chatbots, ຜູ້ຊ່ວຍ virtual, ແລະຄໍາຮ້ອງສະຫມັກອື່ນໆທີ່ຕ້ອງການຄວາມເຂົ້າໃຈທີ່ຖືກຕ້ອງແລະການສ້າງຂໍ້ຄວາມ.
ການມີຢູ່ແລະຄໍາຮ້ອງສະຫມັກ

Microsoft ໄດ້ເຮັດໃຫ້ Phi-4-multimodal ແລະ Phi-4-mini ມີໃຫ້ນັກພັດທະນາຜ່ານ Azure AI Foundry, Hugging Face, ແລະ NVIDIA API Catalog. ນີ້ຫມາຍຄວາມວ່າບໍລິສັດຫຼືຜູ້ໃຊ້ທີ່ມີການເຂົ້າເຖິງແພລະຕະຟອມເຫຼົ່ານີ້ສາມາດເລີ່ມຕົ້ນການທົດລອງກັບຕົວແບບແລະນໍາໃຊ້ມັນໃນສະຖານະການຕ່າງໆ.
ໂດຍວິທີ multimodal ຂອງມັນ, Phi-4 ແມ່ນ ແນໃສ່ບັນດາຂະແໜງການເຊັ່ນ:
- ການແປດ້ວຍເຄື່ອງຈັກ ແລະຄຳບັນຍາຍໃນເວລາຈິງ.
- ການຮັບຮູ້ເອກະສານ ແລະການວິເຄາະສໍາລັບທຸລະກິດ.
- ແອັບພລິເຄຊັນມືຖືທີ່ມີຜູ້ຊ່ວຍອັດສະລິຍະ.
- ຮູບແບບການສຶກສາເພື່ອປັບປຸງການສອນໂດຍອີງໃສ່ AI.
Microsoft ໄດ້ໃຫ້ a ບິດທີ່ຫນ້າສົນໃຈກັບຕົວແບບເຫຼົ່ານີ້ໂດຍສຸມໃສ່ປະສິດທິພາບແລະຂະຫນາດ. ດ້ວຍການແຂ່ງຂັນທີ່ເພີ່ມຂຶ້ນໃນຂະແຫນງການຕົວແບບພາສາຂະຫນາດນ້ອຍ (SLM), Phi-4-multimodal ຖືກນໍາສະເຫນີເປັນທາງເລືອກທີ່ມີປະໂຫຍດຕໍ່ຕົວແບບຂະຫນາດໃຫຍ່, ສະເຫນີຄວາມສົມດູນລະຫວ່າງການປະຕິບັດແລະຄວາມສາມາດໃນການປຸງແຕ່ງ ສາມາດເຂົ້າເຖິງໄດ້ເຖິງແມ່ນວ່າຢູ່ໃນອຸປະກອນທີ່ມີອໍານາດຫນ້ອຍ.
ຂ້ອຍເປັນນັກເທັກໂນໂລຍີທີ່ກະຕືລືລົ້ນທີ່ໄດ້ຫັນຄວາມສົນໃຈ "geek" ຂອງລາວໄປສູ່ອາຊີບ. ຂ້າພະເຈົ້າໄດ້ໃຊ້ເວລາຫຼາຍກ່ວາ 10 ປີຂອງຊີວິດຂອງຂ້າພະເຈົ້າໂດຍການນໍາໃຊ້ເຕັກໂນໂລຊີທີ່ທັນສະໄຫມແລະ tinkering ກັບທຸກປະເພດຂອງໂຄງການອອກຈາກ curiosity ອັນບໍລິສຸດ. ຕອນນີ້ຂ້ອຍມີຄວາມຊ່ຽວຊານດ້ານເທັກໂນໂລຍີຄອມພິວເຕີ ແລະເກມວີດີໂອ. ນີ້ແມ່ນຍ້ອນວ່າຫຼາຍກວ່າ 5 ປີທີ່ຂ້ອຍໄດ້ຂຽນສໍາລັບເວັບໄຊທ໌ຕ່າງໆກ່ຽວກັບເຕັກໂນໂລຢີແລະວິດີໂອເກມ, ການສ້າງບົດຄວາມທີ່ຊອກຫາເພື່ອໃຫ້ທ່ານມີຂໍ້ມູນທີ່ທ່ານຕ້ອງການໃນພາສາທີ່ທຸກຄົນເຂົ້າໃຈໄດ້.
ຖ້າທ່ານມີຄໍາຖາມໃດໆ, ຄວາມຮູ້ຂອງຂ້ອຍແມ່ນມາຈາກທຸກສິ່ງທຸກຢ່າງທີ່ກ່ຽວຂ້ອງກັບລະບົບປະຕິບັດການ Windows ເຊັ່ນດຽວກັນກັບ Android ສໍາລັບໂທລະສັບມືຖື. ແລະຄໍາຫມັ້ນສັນຍາຂອງຂ້າພະເຈົ້າແມ່ນກັບທ່ານ, ຂ້າພະເຈົ້າສະເຫມີເຕັມໃຈທີ່ຈະໃຊ້ເວລາສອງສາມນາທີແລະຊ່ວຍທ່ານແກ້ໄຂຄໍາຖາມໃດໆທີ່ທ່ານອາດຈະມີຢູ່ໃນໂລກອິນເຕີເນັດນີ້.