Microsoft Phi-4 Multimodal: AI ທີ່ເຂົ້າໃຈສຽງ, ຮູບພາບ ແລະຂໍ້ຄວາມ

ອັບເດດຫຼ້າສຸດ: 27/02/2025

  • Microsoft ເປີດຕົວ Phi-4-multimodal, ຮູບແບບ AI ທີ່ປະມວນຜົນສຽງ, ຮູບພາບ ແລະຂໍ້ຄວາມພ້ອມໆກັນ.
  • ດ້ວຍ 5.600 ຕື້ພາລາມິເຕີ, ມັນປະຕິບັດຕົວແບບຂະຫນາດໃຫຍ່ກວ່າໃນການຮັບຮູ້ສຽງແລະການເບິ່ງເຫັນ.
  • ລວມມີ Phi-4-mini, ສະບັບທີ່ເນັ້ນໃສ່ວຽກການປະມວນຜົນຄໍາເທົ່ານັ້ນ.
  • ມີຢູ່ໃນ Azure AI Foundry, Hugging Face, ແລະ NVIDIA, ດ້ວຍແອັບພລິເຄຊັນທີ່ຫຼາກຫຼາຍທາງດ້ານທຸລະກິດ ແລະການສຶກສາ.
Phi-4 multimodal-0 ແມ່ນຫຍັງ

Microsoft ໄດ້ກ້າວໄປຂ້າງໜ້າໃນໂລກຂອງຕົວແບບພາສາດ້ວຍ multimodal Phi-4, ປັນຍາປະດິດຫລ້າສຸດ ແລະ ກ້າວຫນ້າທາງດ້ານທີ່ສຸດ ທີ່ສາມາດປະມວນຜົນຂໍ້ຄວາມ, ຮູບພາບ ແລະສຽງໄດ້ພ້ອມກັນ. ຮູບແບບນີ້, ຮ່ວມກັບ Phi-4-mini, ເປັນຕົວແທນ a evolution ໃນຄວາມສາມາດຂອງຕົວແບບຂະຫນາດນ້ອຍ (SLM), ສະເຫນີປະສິດທິພາບແລະຄວາມຖືກຕ້ອງໂດຍບໍ່ຈໍາເປັນຕ້ອງມີພາລາມິເຕີຈໍານວນຫຼວງຫຼາຍ.

ການມາຮອດຂອງ Phi-4-multimodal ບໍ່ພຽງແຕ່ເປັນຕົວແທນຂອງການປັບປຸງເຕັກໂນໂລຢີສໍາລັບ Microsoft, ແຕ່ຍັງ ມັນແຂ່ງຂັນໂດຍກົງກັບຕົວແບບຂະຫນາດໃຫຍ່ເຊັ່ນຈາກ Google ແລະ Anthropic. ສະຖາປັດຕະຍະກໍາທີ່ດີທີ່ສຸດແລະຄວາມສາມາດສົມເຫດສົມຜົນກ້າວຫນ້າຂອງມັນເຮັດໃຫ້ມັນ ທາງເລືອກທີ່ຫນ້າສົນໃຈສໍາລັບຄໍາຮ້ອງສະຫມັກທີ່ຫຼາກຫຼາຍ, ຈາກການແປພາສາເຄື່ອງໄປຫາຮູບພາບແລະການຮັບຮູ້ສຽງ.

ເນື້ອຫາສະເພາະ - ຄລິກທີ່ນີ້  ວັດສະດຸໃໝ່ຂອງ Gemini ເຈົ້າມີວິດເຈັດມາຮອດ Android.

Phi-4-multimodal ແມ່ນຫຍັງ ແລະມັນເຮັດວຽກແນວໃດ?

Phi-4 Microsoft

Phi-4-multimodal ເປັນຕົວແບບ AI ທີ່ພັດທະນາໂດຍ Microsoft ທີ່ສາມາດປະມວນຜົນຂໍ້ຄວາມ, ຮູບພາບ ແລະສຽງໄດ້ພ້ອມກັນ.. ບໍ່ເຫມືອນກັບແບບດັ້ງເດີມທີ່ເຮັດວຽກກັບໂມດູນດຽວ, ປັນຍາປະດິດນີ້ລວມເອົາແຫຼ່ງຂໍ້ມູນຕ່າງໆເຂົ້າໄປໃນພື້ນທີ່ເປັນຕົວແທນດຽວ, ຍ້ອນການນໍາໃຊ້ເຕັກນິກການຮຽນຮູ້ຂ້າມ.

ຮູບແບບດັ່ງກ່າວຖືກສ້າງຂຶ້ນໃນສະຖາປັດຕະຍະກໍາຂອງ 5.600 ຕື້ພາລາມິເຕີ, ການນໍາໃຊ້ເຕັກນິກທີ່ເອີ້ນວ່າ LoRAs (ການປັບຕົວຕ່ໍາ) ເພື່ອລວມຂໍ້ມູນປະເພດຕ່າງໆ. ນີ້ອະນຸຍາດໃຫ້ມີຄວາມຊັດເຈນຫຼາຍຂຶ້ນໃນການປຸງແຕ່ງພາສາແລະການຕີຄວາມເລິກຂອງສະພາບການ.

ຄວາມສາມາດແລະຜົນປະໂຫຍດທີ່ສໍາຄັນ

Phi-4-multimodal ແມ່ນມີປະສິດຕິຜົນໂດຍສະເພາະໃນຫຼາຍໜ້າວຽກທີ່ຕ້ອງໃຊ້ປັນຍາປະດິດລະດັບສູງ:

  • ການຮັບຮູ້ການປາກເວົ້າ: ມັນປະຕິບັດໄດ້ດີກວ່າແບບພິເສດເຊັ່ນ WhisperV3 ໃນການທົດສອບການຖອດຂໍ້ຄວາມແລະການແປດ້ວຍເຄື່ອງຈັກ.
  • ການປະມວນຜົນຮູບພາບ: ມັນ​ເປັນ​ຄວາມ​ສາ​ມາດ​ຂອງ​ການ​ແປ​ເອ​ກະ​ສານ​, ຮູບ​ພາບ​ແລະ​ການ​ປະ​ຕິ​ບັດ OCR ກັບ​ຄວາມ​ຖືກ​ຕ້ອງ​ທີ່​ຍິ່ງ​ໃຫຍ່​.
  • ການ​ຊີ້​ນຳ​ການ​ຊັກ​ຊ້າ​ຕ່ຳ: ນີ້ອະນຸຍາດໃຫ້ມັນດໍາເນີນການໃນອຸປະກອນມືຖືແລະພະລັງງານຕ່ໍາໂດຍບໍ່ມີການເສຍສະລະປະສິດທິພາບ.
  • ການ​ເຊື່ອມ​ໂຍງ​ຢ່າງ​ບໍ່​ຕິດ​ຂັດ​ລະ​ຫວ່າງ modalities​: ຄວາມ​ສາ​ມາດ​ຂອງ​ເຂົາ​ເຈົ້າ​ທີ່​ຈະ​ເຂົ້າ​ໃຈ​ຂໍ້​ຄວາມ, ການ​ປາກ​ເວົ້າ​ແລະ​ຮູບ​ພາບ​ຮ່ວມ​ກັນ​ປັບ​ປຸງ​ການ​ສົມ​ເຫດ​ສົມ​ຜົນ​ສະ​ພາບ​ການ​ຂອງ​ເຂົາ​ເຈົ້າ.
ເນື້ອຫາສະເພາະ - ຄລິກທີ່ນີ້  AMD ແລະ ຄວາມໝັ້ນຄົງ AI ປະຕິວັດການສະແດງ AI ທ້ອງຖິ່ນໃນຄອມພິວເຕີໂນດບຸກດ້ວຍ Amuse 3.1

ການປຽບທຽບກັບແບບອື່ນໆ

PHI-4-ປະສິດທິພາບຫຼາຍ

ໃນແງ່ຂອງການປະຕິບັດ, Phi-4-multimodal ໄດ້ພິສູດໃຫ້ເຫັນວ່າທຽບເທົ່າກັບຕົວແບບຂະຫນາດໃຫຍ່. ເມື່ອປຽບທຽບກັບ Gemini-2-Flash-lite ແລະ Claude-3.5-Sonnet, ບັນລຸຜົນໄດ້ຮັບທີ່ຄ້າຍຄືກັນໃນວຽກງານ multimodal, ໃນຂະນະທີ່ຮັກສາປະສິດທິພາບດີກວ່າຂໍຂອບໃຈກັບການອອກແບບທີ່ຫນາແຫນ້ນຂອງມັນ.

ເຖິງຢ່າງໃດກໍ່ຕາມ, ນໍາສະເຫນີຂໍ້ຈໍາກັດບາງຢ່າງໃນຄໍາຖາມແລະຄໍາຕອບທີ່ອີງໃສ່ສຽງ, ບ່ອນທີ່ຕົວແບບເຊັ່ນ GPT-4o ແລະ Gemini-2.0-Flash ມີປະໂຫຍດ. ນີ້ແມ່ນເນື່ອງມາຈາກຂະຫນາດຂອງຕົວແບບທີ່ນ້ອຍກວ່າ, ເຊິ່ງສົ່ງຜົນກະທົບຕໍ່ການຮັກສາຄວາມຮູ້ຄວາມເປັນຈິງ. Microsoft ໄດ້ຊີ້ໃຫ້ເຫັນວ່າມັນກໍາລັງເຮັດວຽກເພື່ອປັບປຸງຄວາມສາມາດນີ້ໃນຮຸ່ນໃນອະນາຄົດ.

Phi-4-mini: ນ້ອງນ້ອຍຂອງ Phi-4-multimodal

ຄຽງຄູ່ກັບ Phi-4-multimodal, Microsoft ຍັງໄດ້ເປີດຕົວ Phi-4-mini, ເປັນຕົວແປທີ່ປັບໃຫ້ເໝາະສົມສຳລັບວຽກທີ່ອີງໃສ່ຂໍ້ຄວາມສະເພາະ. ຮູບແບບນີ້ຖືກອອກແບບມາເພື່ອສະເຫນີ ປະສິດທິພາບສູງໃນການປຸງແຕ່ງພາສາທໍາມະຊາດ, ເຮັດໃຫ້ມັນເຫມາະສົມສໍາລັບ chatbots, ຜູ້ຊ່ວຍ virtual, ແລະຄໍາຮ້ອງສະຫມັກອື່ນໆທີ່ຕ້ອງການຄວາມເຂົ້າໃຈທີ່ຖືກຕ້ອງແລະການສ້າງຂໍ້ຄວາມ.

ການມີຢູ່ແລະຄໍາຮ້ອງສະຫມັກ

Phi-4 multimodal-5 ແມ່ນຫຍັງ

Microsoft ໄດ້ເຮັດໃຫ້ Phi-4-multimodal ແລະ Phi-4-mini ມີໃຫ້ນັກພັດທະນາຜ່ານ Azure AI Foundry, Hugging Face, ແລະ NVIDIA API Catalog. ນີ້ຫມາຍຄວາມວ່າບໍລິສັດຫຼືຜູ້ໃຊ້ທີ່ມີການເຂົ້າເຖິງແພລະຕະຟອມເຫຼົ່ານີ້ສາມາດເລີ່ມຕົ້ນການທົດລອງກັບຕົວແບບແລະນໍາໃຊ້ມັນໃນສະຖານະການຕ່າງໆ.

ເນື້ອຫາສະເພາະ - ຄລິກທີ່ນີ້  Gemma 3n: ທຸລະກິດໃຫມ່ຂອງ Google ທີ່ຈະນໍາເອົາ AI ຂັ້ນສູງໃຫ້ກັບອຸປະກອນຕ່າງໆ

ໂດຍວິທີ multimodal ຂອງມັນ, Phi-4 ແມ່ນ ​ແນ​ໃສ່​ບັນດາ​ຂະ​ແໜງ​ການ​ເຊັ່ນ:

  • ການແປດ້ວຍເຄື່ອງຈັກ ແລະຄຳບັນຍາຍໃນເວລາຈິງ.
  • ການຮັບຮູ້ເອກະສານ ແລະການວິເຄາະສໍາລັບທຸລະກິດ.
  • ແອັບພລິເຄຊັນມືຖືທີ່ມີຜູ້ຊ່ວຍອັດສະລິຍະ.
  • ຮູບແບບການສຶກສາເພື່ອປັບປຸງການສອນໂດຍອີງໃສ່ AI.

Microsoft ໄດ້​ໃຫ້ a ບິດທີ່ຫນ້າສົນໃຈກັບຕົວແບບເຫຼົ່ານີ້ໂດຍສຸມໃສ່ປະສິດທິພາບແລະຂະຫນາດ. ດ້ວຍ​ການ​ແຂ່ງ​ຂັນ​ທີ່​ເພີ່ມ​ຂຶ້ນ​ໃນ​ຂະ​ແຫນງ​ການ​ຕົວ​ແບບ​ພາ​ສາ​ຂະ​ຫນາດ​ນ້ອຍ (SLM​)​, Phi-4-multimodal ຖືກນໍາສະເຫນີເປັນທາງເລືອກທີ່ມີປະໂຫຍດຕໍ່ຕົວແບບຂະຫນາດໃຫຍ່, ສະເຫນີຄວາມສົມດູນລະຫວ່າງການປະຕິບັດແລະຄວາມສາມາດໃນການປຸງແຕ່ງ ສາມາດເຂົ້າເຖິງໄດ້ເຖິງແມ່ນວ່າຢູ່ໃນອຸປະກອນທີ່ມີອໍານາດຫນ້ອຍ.