- 使用單一 GPU 在不到 1 秒的時間內產生 1 分鐘的音訊
- 即使在有多位發言者的場景中,也能保持自然而富有表現力的聲音
- 可在 Copilot Daily、播客和 Copilot Labs 試用版中使用
- 用於講故事、冥想、客戶服務等的應用程式

微軟推出了 MAI-Voice-1,一款注重速度和音質的語音合成系統。這款語音引擎旨在融入日常產品和體驗,其目標明確: 聽起來很自然, 以創紀錄的時間做出回應並促進部署,無需大量運算能力.
目標是讓語音成為助手和內容之間的流暢介面。在測試和公開演示中,該模型因其效率而脫穎而出: 能夠在不到一秒的時間內製作出一分鐘的畫外音,為不同的閱讀風格保持真實且可控的音色。
MAI-Voice-1:自然的聲音和令人驚嘆的性能

最引人注目的技術數據是它的推理性能。系統生成 使用單一 GPU 即可在近乎瞬間完成 60 秒的音頻,使其成為需要立即回應的體驗的非常有競爭力的選擇。
品質也是主角:音色、語調和停頓的聲音 富有表現力且可信,支援單聲道或多聲道場景。保真度和速度之間的平衡是合成語音的關鍵,它不會分散注意力,而是與內容相得益彰。
在哪裡進行測試以及提供哪些工具
MAI-Voice-1 現已整合到 Copilot Daily 和 Podcasts 中,它促進了口頭摘要和即時生成的內容。 它也可以在 Copilot Labs 中使用,這是 Microsoft 展示新功能的環境,任何人都可以嘗試這些功能。
在這個測試空間裡,該公司提供講故事和富有表現力的語音體驗,旨在探索該模型的潛力。示範可以讓你測試 人工智慧如何應對 更感性或更具描述性的閱讀風格以及它如何在高速下保持清晰度。
使用思路和場景
應用範圍很廣。對於 說故事、語音導覽或冥想,模型的表現力有助於傳達意圖而不會聽起來像機器人,這項要求在沉浸式內容中越來越受到重視。
在商業領域,畫外音生成可以加速 內部培訓、客戶服務 或用於行銷的多媒體作品。 MAI-Voice-1 的速度縮短了製作時間,並使其更容易迭代,直到找到合適的基調。
另一個有希望的路線是 需要非常低的延遲才能使現場聽起來更自然. 憑藉快速且靈活的引擎, 無需依賴大型基礎設施,即可更輕鬆地將語音整合到互動流程中.
為什麼它對產品和成本很重要
計算效率 允許擴充而不增加成本:能夠使用單一 GPU 進行操作 它降低了進入門檻,為產品團隊和獨立創作者打開了更容易進行的試點和部署的大門。
同時,微軟強調其語音系統中負責任的設計的重要性:表達力著重於理解和實用性, 不賦予其任何感情或意圖 對模型來說。換句話說,就是要有一種令人信服的聲音,讓人無法相信電話那頭有人。
透過這項提案,MAI-Voice-1 旨在成為 下一代口語體驗: 快速、靈活且音質出色,旨在無縫整合到響應時間和品質至關重要的產品中。
我是一名技術愛好者,已將自己的“極客”興趣變成了職業。出於純粹的好奇心,我花了 10 多年的時間使用尖端技術並修改各種程序。現在我專攻電腦技術和電玩遊戲。這是因為五年多來,我一直在為各種技術和視頻遊戲網站撰寫文章,力求以每個人都能理解的語言為您提供所需的資訊。
如果您有任何疑問,我的知識範圍涵蓋與 Windows 作業系統以及手機 Android 相關的所有內容。我對您的承諾是,我總是願意花幾分鐘幫助您解決在這個網路世界中可能遇到的任何問題。