MAI-Voice-1 ของ Microsoft สร้างเสียงหนึ่งนาทีได้ในเวลาไม่ถึงวินาที ซึ่งถือเป็นวิธีที่ Microsoft มุ่งมั่นที่จะนำเสียงพากย์ที่ "เป็นธรรมชาติ" ไปสู่ ​​Copilot และแอปอื่นๆ

การปรับปรุงครั้งล่าสุด: 01/09/2025
ผู้แต่ง: Alberto navarro

  • สร้างเสียง 1 นาทีในเวลาไม่ถึง 1 วินาทีด้วย GPU ตัวเดียว
  • เสียงที่เป็นธรรมชาติและแสดงออกได้แม้ในสถานการณ์ที่มีผู้พูดหลายคน
  • มีให้บริการบน Copilot Daily, Podcasts และการทดลองใช้ใน Copilot Labs
  • แอปสำหรับการเล่าเรื่อง การทำสมาธิ การบริการลูกค้า และอื่นๆ อีกมากมาย

โมเดลเสียง AI ของ Microsoft

Microsoft ได้เปิดตัว MAI-Voice-1ระบบสังเคราะห์เสียงที่เน้นความเร็วและคุณภาพเสียง ออกแบบมาเพื่อผสานรวมเข้ากับผลิตภัณฑ์และประสบการณ์การใช้งานในชีวิตประจำวัน ระบบเสียงนี้มาพร้อมความชัดเจนและชัดเจน: เสียงที่เป็นธรรมชาติ, ตอบสนองได้ทันเวลาและอำนวยความสะดวกในการใช้งานโดยไม่ต้องใช้พลังการประมวลผลมากนัก.

เป้าหมายคือการทำให้เสียงเป็นอินเทอร์เฟซที่ลื่นไหลสำหรับผู้ช่วยและคอนเทนต์ต่างๆ ในการทดสอบและการสาธิตต่อสาธารณะ โมเดลนี้โดดเด่นในด้านประสิทธิภาพ: มีความสามารถในการผลิตเสียงพากย์เต็มนาทีได้ในเวลาไม่ถึงหนึ่งวินาทีรักษาโทนเสียงที่สมจริงและควบคุมได้สำหรับรูปแบบการอ่านที่แตกต่างกัน

MAI-Voice-1: เสียงที่เป็นธรรมชาติและการแสดงที่น่าทึ่ง

เทคโนโลยีการสังเคราะห์เสียงพูด

ข้อมูลทางเทคนิคที่โดดเด่นที่สุดคือประสิทธิภาพการอนุมาน ระบบจะสร้าง เสียงความยาว 60 วินาทีในเวลาเกือบจะทันทีโดยใช้ GPU ตัวเดียวทำให้เป็นตัวเลือกที่มีการแข่งขันสูงสำหรับประสบการณ์ที่ต้องการการตอบสนองทันที

เนื้อหาพิเศษ - คลิกที่นี่  Anthropic แนะนำ Claude 3.7 Sonnet: AI แบบไฮบริดพร้อมการใช้เหตุผลขั้นสูง

คุณภาพก็เป็นตัวเอกเช่นกัน: เสียง ระดับเสียง และการหยุดเสียง แสดงออกและน่าเชื่อถือพร้อมรองรับสถานการณ์เสียงเดียวหรือหลายเสียง ความสมดุลระหว่างความเที่ยงตรงและความเร็วนี้คือกุญแจสำคัญของเสียงสังเคราะห์ที่ไม่รบกวนสมาธิ แต่กลับสอดแทรกเนื้อหาไปด้วย

มีการทดสอบที่ไหนและมีเครื่องมืออะไรบ้าง

MAI-Voice-1 ได้รับการรวมเข้ากับ Copilot Daily และ Podcasts แล้วซึ่งส่งเสริมการสรุปแบบพูดและเนื้อหาที่สร้างขึ้นทันที ยังมีอยู่ใน Copilot Labs ด้วยสภาพแวดล้อมที่ Microsoft นำเสนอฟีเจอร์ใหม่เพื่อให้ทุกคนสามารถทดลองใช้ได้

ในพื้นที่ทดสอบนี้ บริษัทนำเสนอประสบการณ์การเล่าเรื่องและการพูดเชิงแสดงออกที่มุ่งสำรวจศักยภาพของโมเดล การสาธิตช่วยให้คุณทดสอบ AI ตอบสนองต่ออย่างไร รูปแบบการอ่านที่เน้นอารมณ์หรือบรรยายมากขึ้นและยังคงความคมชัดแม้ในความเร็วสูง

แนวคิดและสถานการณ์การใช้งาน

มีขอบเขตการใช้งานที่กว้างขวาง สำหรับ การเล่านิทาน, คู่มือเสียง หรือการทำสมาธิความสามารถในการแสดงออกของโมเดลช่วยถ่ายทอดเจตนาโดยไม่ให้ดูเหมือนหุ่นยนต์ ซึ่งเป็นข้อกำหนดที่มีคุณค่าเพิ่มมากขึ้นในเนื้อหาที่ดื่มด่ำ

เนื้อหาพิเศษ - คลิกที่นี่  วิธีใช้ Microsoft Designer เพื่อปรับปรุงโครงการสร้างสรรค์ของคุณ

ในด้านธุรกิจ การสร้างเสียงพากย์สามารถเร่งความเร็วได้ การฝึกอบรมภายใน การบริการลูกค้า หรือชิ้นงานมัลติมีเดียเพื่อการตลาด ความเร็วของ MAI-Voice-1 ช่วยลดเวลาในการผลิตและทำให้ทำซ้ำได้ง่ายขึ้นจนกว่าจะพบโทนเสียงที่เหมาะสม

อีกหนึ่งแนวทางที่น่าสนใจคือ ต้องมีความหน่วงต่ำมากเพื่อให้เสียงสดดูเป็นธรรมชาติมากขึ้น. ด้วยเครื่องยนต์ที่รวดเร็วและคล่องตัว การรวมเสียงเข้ากับกระแสข้อมูลแบบโต้ตอบนั้นง่ายกว่าโดยไม่ต้องพึ่งพาโครงสร้างพื้นฐานขนาดใหญ่.

เหตุใดจึงสำคัญต่อผลิตภัณฑ์และต้นทุน

ประสิทธิภาพการประมวลผล ช่วยให้ปรับขนาดได้โดยไม่ต้องเพิ่มต้นทุน: สามารถใช้งานด้วย GPU ตัวเดียว ช่วยลดอุปสรรคในการเข้าถึงและเปิดประตูสู่โครงการนำร่องและการปรับใช้ที่เข้าถึงได้มากขึ้นสำหรับทั้งทีมผลิตภัณฑ์และผู้สร้างอิสระ

ในเวลาเดียวกัน Microsoft เน้นย้ำถึงความสำคัญของการออกแบบที่มีความรับผิดชอบในระบบเสียงของตน: การแสดงออกเน้นที่ความเข้าใจและความเป็นประโยชน์ โดยไม่แสดงความรู้สึกหรือเจตนาใดๆ ให้กับโมเดล กล่าวอีกนัยหนึ่งคือ เสียงที่น่าเชื่อถือที่ไม่ทำให้เชื่อว่ามีคนอยู่ปลายสาย

เนื้อหาพิเศษ - คลิกที่นี่  เทคโนโลยีการรู้จำเสียงจะถูกใช้ในคอมพิวเตอร์ส่วนบุคคลในอนาคตอย่างไร?

ด้วยข้อเสนอนี้ MAI-Voice-1 มุ่งหวังที่จะเป็นชิ้นส่วนสำคัญสำหรับ ประสบการณ์การพูดรุ่นถัดไป: รวดเร็ว ยืดหยุ่น และเสียงอันน่าดึงดูดออกแบบมาเพื่อบูรณาการเข้ากับผลิตภัณฑ์ได้อย่างลงตัว โดยที่เวลาตอบสนองและคุณภาพเป็นสิ่งสำคัญ