วิธีการติดตั้ง Microsoft Phi-4 Multimodal บน Windows 11

การปรับปรุงครั้งล่าสุด: 02/03/2025

พีไอ-4 มัลติโมดัล

ไม่กี่วันที่ผ่านมาในบล็อกนี้ เราสะท้อนถึงการเปิดตัว Microsoft Phi-4 มัลติโหมดโมเดลปัญญาประดิษฐ์อันทะเยอทะยานที่ออกแบบมาเพื่อประมวลผลข้อความ รูปภาพ และเสียงพร้อมกัน ความก้าวหน้าที่แสดงถึง เหตุการณ์สำคัญที่สำคัญ ในการวิวัฒนาการของ AIช่วยให้โต้ตอบกับอุปกรณ์ได้อย่างเป็นธรรมชาติและมีประสิทธิภาพมากขึ้น ตอนนี้เรามาดูกันดีกว่า วิธีการติดตั้ง Phi-4 Multimodal บน Windows 11 และเริ่มเพลิดเพลินไปกับข้อดีของมัน

ข้อมูลที่เรานำเสนอในบทความนี้จะมีประโยชน์อย่างมากในการใช้ประโยชน์จากพลังอันยิ่งใหญ่ของ AI นี้ ที่นี่คุณจะพบกับกระบวนการติดตั้งทีละขั้นตอนโดยละเอียดตั้งแต่ข้อกำหนดขั้นต่ำจนถึงการกำหนดค่าและการใช้งาน

Phi-4 Multimodal คืออะไร และเหตุใดจึงมีความเกี่ยวข้อง?

ตามที่ Microsoft อธิบายไว้ใน เว็บไซต์ทางการ, พีไอ-4 มัลติโมดัล นับเป็นโมเดลปัญญาประดิษฐ์ที่ล้ำหน้าที่สุดที่บริษัทเคยสร้างขึ้นมาจนถึงปัจจุบัน ต่างจากเวอร์ชันก่อนหน้าที่เน้นการประมวลผลคำ เวอร์ชันใหม่นี้รวมเอา แนวทางหลายโหมดที่รวมข้อความ รูปภาพ และเสียงไว้ในระบบเดียว

เนื้อหาพิเศษ - คลิกที่นี่  NVIDIA Fugatto: นวัตกรรม AI ที่จะเปลี่ยนแปลงอนาคตของเสียง

ขอบคุณสำหรับ สถาปัตยกรรมที่ปรับให้เหมาะสม ด้วยพารามิเตอร์ 14.000 พันล้านตัวPhi-4 Multimodal มีประสิทธิภาพที่โดดเด่นในการแปลภาษาด้วยเครื่อง การจดจำเสียงพูด และงานช่วยเหลือด้านการสนทนา หากคุณต้องการเรียนรู้เพิ่มเติมเกี่ยวกับคุณสมบัติของเทคโนโลยีนี้ คุณสามารถดูรายละเอียดเพิ่มเติมได้ในบทความที่เราเขียนเกี่ยวกับเรื่องนี้ โมเดล AI ของไมโครซอฟต์.

ข้อกำหนดขั้นต่ำในการติดตั้ง Phi-4 Multimodal บน Windows 11

ก่อนที่จะดำเนินการติดตั้ง สิ่งสำคัญคือต้องตรวจสอบให้แน่ใจว่าอุปกรณ์ของคุณตรงตามข้อกำหนดต่อไปนี้: ความต้องการ:

  • กราฟิกการ์ด (GPU):แนะนำ RTX A6000 เพื่อประสิทธิภาพที่เหมาะสมที่สุด
  • เนื้อที่ดิสก์: พื้นที่เก็บข้อมูลว่างอย่างน้อย 40 GB
  • แรม: แนะนำขั้นต่ำ 48 GB.
  • หน่วยประมวลผล (CPU):48 คอร์เพื่อการทำงานที่ราบรื่น

วิธีการติดตั้ง Phi-4 Multimodal บน Windows 11

วิธีการติดตั้ง Microsoft Phi-4 Multimodal บน Windows 11

 

ด้านล่างนี้เราจะอธิบายรายละเอียดขั้นตอนการติดตั้ง Microsoft Phi-4 Multimodal บน Windows 11 ทีละขั้นตอน:

1. ดาวน์โหลดและติดตั้ง Ollama

Ollama เป็นแพลตฟอร์มที่ช่วยให้คุณสามารถรัน Phi-4 Multimodal บนคอมพิวเตอร์ของคุณได้ หากต้องการติดตั้ง สิ่งแรกที่ต้องทำคือรันคำสั่งต่อไปนี้ในเทอร์มินัล Windows:

เนื้อหาพิเศษ - คลิกที่นี่  Foundry Local และ Windows AI Foundry: Microsoft กำลังเดิมพันกับ AI ในท้องถิ่นด้วยระบบนิเวศนักพัฒนาซอฟต์แวร์ใหม่

curl -fsSL https://ollama.com/install.sh | sh

2. จัดเตรียมสภาพแวดล้อม

เมื่อติดตั้ง Ollama แล้ว จำเป็นต้องกำหนดค่าสภาพแวดล้อมที่เหมาะสมสำหรับ Phi-4 Multimodal สิ่งนี้รวมถึง การเลือกทรัพยากรฮาร์ดแวร์ที่เหมาะสม และปรับแต่งการตั้งค่าระบบ

3. ดาวน์โหลดและเปิดใช้งาน Phi-4 Multimodal

เมื่อตั้งค่าเสร็จสิ้นแล้ว เพื่อรับโมเดล เราต้องดำเนินการคำสั่งต่อไปนี้ในเทอร์มินัล:

ollama pull vanilj/Phi-4

เมื่อการดาวน์โหลดเสร็จสิ้น เราจะเริ่มต้นโมเดลด้วย:

ollama run vanilj/Phi-4

การใช้ Phi-4 Multimodal ใน Azure AI Foundry

โรงหล่อเอไอเอซัวร์

ตัวเลือกอื่นในการใช้ Phi-4 Multimodal คือผ่านแพลตฟอร์มคลาวด์ของ Microsoft โรงหล่อ Azure AI- ทางเลือกนี้ช่วยให้สามารถเข้าถึงความสามารถของโมเดลได้ ไม่จำเป็นต้องติดตั้งในพื้นที่.

หากต้องการปรับใช้ Phi-4 Multimodal บน Azure ให้ทำตามขั้นตอนเหล่านี้:

  1. เข้าถึงพอร์ทัล Azure AI Foundry
  2. เลือกตัวเลือกการปรับใช้แบบจำลองหลายโหมด Phi-4
  3. ปฏิบัติตามคำแนะนำในการตั้งค่าและใช้งาน

การเปรียบเทียบกับโมเดล AI อื่น ๆ

 

เนื้อหาพิเศษ - คลิกที่นี่  Google ลบ Gemma ออกจาก AI Studio หลังจากสมาชิกวุฒิสภาร้องเรียน

Phi-4 Multimodal ได้แสดงให้เห็นถึง ประสิทธิภาพที่โดดเด่น ในงานการประมวลผลภาษาธรรมชาติและการจดจำเสียงพูด เมื่อเทียบกับรุ่นเช่น Gemini Pro และ GPT-4o ข้อได้เปรียบของรุ่นดังกล่าวอยู่ที่ ประสิทธิภาพ ซึ่งคุณสามารถจัดการข้อมูลหลายประเภทพร้อมกันได้

ในการทดสอบประสิทธิภาพ Phi-4 Multimodal มีประสิทธิภาพเหนือกว่าโมเดลอ้างอิงในงานเช่น:

  • การจดจำเสียงขั้นสูง
  • การแปลโดยเครื่องจักรที่มีความแม่นยำสูง
  • การโต้ตอบหลายโหมดแบบเรียลไทม์

Microsoft ได้ก้าวไปอีกขั้นด้วย Phi-4 Multimodal โดยนำเสนอเครื่องมือที่แข็งแกร่งและอเนกประสงค์ให้กับผู้ใช้ ซึ่งจะช่วยกำหนดศักยภาพของปัญญาประดิษฐ์ใหม่ในบ้านและธุรกิจ การติดตั้งบน Windows 11 ช่วยให้คุณใช้ประโยชน์จากโมเดลล้ำสมัยที่ผสานเสียง ภาพ และข้อความเข้าด้วยกัน ความคล่องตัวที่ไม่เคยมีมาก่อน.