- สร้างเสียง 1 นาทีในเวลาไม่ถึง 1 วินาทีด้วย GPU ตัวเดียว
- เสียงที่เป็นธรรมชาติและแสดงออกได้แม้ในสถานการณ์ที่มีผู้พูดหลายคน
- มีให้บริการบน Copilot Daily, Podcasts และการทดลองใช้ใน Copilot Labs
- แอปสำหรับการเล่าเรื่อง การทำสมาธิ การบริการลูกค้า และอื่นๆ อีกมากมาย

Microsoft ได้เปิดตัว MAI-Voice-1ระบบสังเคราะห์เสียงที่เน้นความเร็วและคุณภาพเสียง ออกแบบมาเพื่อผสานรวมเข้ากับผลิตภัณฑ์และประสบการณ์การใช้งานในชีวิตประจำวัน ระบบเสียงนี้มาพร้อมความชัดเจนและชัดเจน: เสียงที่เป็นธรรมชาติ, ตอบสนองได้ทันเวลาและอำนวยความสะดวกในการใช้งานโดยไม่ต้องใช้พลังการประมวลผลมากนัก.
เป้าหมายคือการทำให้เสียงเป็นอินเทอร์เฟซที่ลื่นไหลสำหรับผู้ช่วยและคอนเทนต์ต่างๆ ในการทดสอบและการสาธิตต่อสาธารณะ โมเดลนี้โดดเด่นในด้านประสิทธิภาพ: มีความสามารถในการผลิตเสียงพากย์เต็มนาทีได้ในเวลาไม่ถึงหนึ่งวินาทีรักษาโทนเสียงที่สมจริงและควบคุมได้สำหรับรูปแบบการอ่านที่แตกต่างกัน
MAI-Voice-1: เสียงที่เป็นธรรมชาติและการแสดงที่น่าทึ่ง

ข้อมูลทางเทคนิคที่โดดเด่นที่สุดคือประสิทธิภาพการอนุมาน ระบบจะสร้าง เสียงความยาว 60 วินาทีในเวลาเกือบจะทันทีโดยใช้ GPU ตัวเดียวทำให้เป็นตัวเลือกที่มีการแข่งขันสูงสำหรับประสบการณ์ที่ต้องการการตอบสนองทันที
คุณภาพก็เป็นตัวเอกเช่นกัน: เสียง ระดับเสียง และการหยุดเสียง แสดงออกและน่าเชื่อถือพร้อมรองรับสถานการณ์เสียงเดียวหรือหลายเสียง ความสมดุลระหว่างความเที่ยงตรงและความเร็วนี้คือกุญแจสำคัญของเสียงสังเคราะห์ที่ไม่รบกวนสมาธิ แต่กลับสอดแทรกเนื้อหาไปด้วย
มีการทดสอบที่ไหนและมีเครื่องมืออะไรบ้าง
MAI-Voice-1 ได้รับการรวมเข้ากับ Copilot Daily และ Podcasts แล้วซึ่งส่งเสริมการสรุปแบบพูดและเนื้อหาที่สร้างขึ้นทันที ยังมีอยู่ใน Copilot Labs ด้วยสภาพแวดล้อมที่ Microsoft นำเสนอฟีเจอร์ใหม่เพื่อให้ทุกคนสามารถทดลองใช้ได้
ในพื้นที่ทดสอบนี้ บริษัทนำเสนอประสบการณ์การเล่าเรื่องและการพูดเชิงแสดงออกที่มุ่งสำรวจศักยภาพของโมเดล การสาธิตช่วยให้คุณทดสอบ AI ตอบสนองต่ออย่างไร รูปแบบการอ่านที่เน้นอารมณ์หรือบรรยายมากขึ้นและยังคงความคมชัดแม้ในความเร็วสูง
แนวคิดและสถานการณ์การใช้งาน
มีขอบเขตการใช้งานที่กว้างขวาง สำหรับ การเล่านิทาน, คู่มือเสียง หรือการทำสมาธิความสามารถในการแสดงออกของโมเดลช่วยถ่ายทอดเจตนาโดยไม่ให้ดูเหมือนหุ่นยนต์ ซึ่งเป็นข้อกำหนดที่มีคุณค่าเพิ่มมากขึ้นในเนื้อหาที่ดื่มด่ำ
ในด้านธุรกิจ การสร้างเสียงพากย์สามารถเร่งความเร็วได้ การฝึกอบรมภายใน การบริการลูกค้า หรือชิ้นงานมัลติมีเดียเพื่อการตลาด ความเร็วของ MAI-Voice-1 ช่วยลดเวลาในการผลิตและทำให้ทำซ้ำได้ง่ายขึ้นจนกว่าจะพบโทนเสียงที่เหมาะสม
อีกหนึ่งแนวทางที่น่าสนใจคือ ต้องมีความหน่วงต่ำมากเพื่อให้เสียงสดดูเป็นธรรมชาติมากขึ้น. ด้วยเครื่องยนต์ที่รวดเร็วและคล่องตัว การรวมเสียงเข้ากับกระแสข้อมูลแบบโต้ตอบนั้นง่ายกว่าโดยไม่ต้องพึ่งพาโครงสร้างพื้นฐานขนาดใหญ่.
เหตุใดจึงสำคัญต่อผลิตภัณฑ์และต้นทุน
ประสิทธิภาพการประมวลผล ช่วยให้ปรับขนาดได้โดยไม่ต้องเพิ่มต้นทุน: สามารถใช้งานด้วย GPU ตัวเดียว ช่วยลดอุปสรรคในการเข้าถึงและเปิดประตูสู่โครงการนำร่องและการปรับใช้ที่เข้าถึงได้มากขึ้นสำหรับทั้งทีมผลิตภัณฑ์และผู้สร้างอิสระ
ในเวลาเดียวกัน Microsoft เน้นย้ำถึงความสำคัญของการออกแบบที่มีความรับผิดชอบในระบบเสียงของตน: การแสดงออกเน้นที่ความเข้าใจและความเป็นประโยชน์ โดยไม่แสดงความรู้สึกหรือเจตนาใดๆ ให้กับโมเดล กล่าวอีกนัยหนึ่งคือ เสียงที่น่าเชื่อถือที่ไม่ทำให้เชื่อว่ามีคนอยู่ปลายสาย
ด้วยข้อเสนอนี้ MAI-Voice-1 มุ่งหวังที่จะเป็นชิ้นส่วนสำคัญสำหรับ ประสบการณ์การพูดรุ่นถัดไป: รวดเร็ว ยืดหยุ่น และเสียงอันน่าดึงดูดออกแบบมาเพื่อบูรณาการเข้ากับผลิตภัณฑ์ได้อย่างลงตัว โดยที่เวลาตอบสนองและคุณภาพเป็นสิ่งสำคัญ
ฉันเป็นผู้ชื่นชอบเทคโนโลยีที่เปลี่ยนความสนใจ "เกินบรรยาย" ของเขาให้กลายเป็นอาชีพ ฉันใช้เวลามากกว่า 10 ปีในชีวิตไปกับเทคโนโลยีล้ำสมัยและปรับแต่งโปรแกรมทุกประเภทด้วยความอยากรู้อยากเห็น ตอนนี้ฉันมีความเชี่ยวชาญในด้านเทคโนโลยีคอมพิวเตอร์และวิดีโอเกม เนื่องจากเป็นเวลากว่า 5 ปีแล้วที่ฉันเขียนให้กับเว็บไซต์ต่างๆ เกี่ยวกับเทคโนโลยีและวิดีโอเกม โดยสร้างบทความที่พยายามให้ข้อมูลที่คุณต้องการในภาษาที่ทุกคนเข้าใจได้
หากคุณมีคำถามใดๆ ความรู้ของฉันมีตั้งแต่ทุกอย่างที่เกี่ยวข้องกับระบบปฏิบัติการ Windows รวมถึง Android สำหรับโทรศัพท์มือถือ และความมุ่งมั่นของฉันคือคุณ ฉันยินดีสละเวลาสักครู่เสมอและช่วยคุณแก้ไขคำถามใดๆ ที่คุณอาจมีในโลกอินเทอร์เน็ตนี้