微軟的 MAI-Voice-1 可以在不到一秒鐘的時間內產生一分鐘的聲音:這就是它旨在為 Copilot 和任何應用程式帶來「自然」畫外音的方式。

最後更新: 01/09/2025

  • 使用單一 GPU 在不到 1 秒的時間內產生 1 分鐘的音訊
  • 即使在有多位發言者的場景中,也能保持自然而富有表現力的聲音
  • 可在 Copilot Daily、播客和 Copilot Labs 試用版中使用
  • 用於講故事、冥想、客戶服務等的應用程式

微軟AI語音模型

微軟推出了 MAI-Voice-1,一款注重速度和音質的語音合成系統。這款語音引擎旨在融入日常產品和體驗,其目標明確: 聽起來很自然, 以創紀錄的時間做出回應並促進部署,無需大量運算能力.

目標是讓語音成為助手和內容之間的流暢介面。在測試和公開演示中,該模型因其效率而脫穎而出: 能夠在不到一秒的時間內製作出一分鐘的畫外音,為不同的閱讀風格保持真實且可控的音色。

MAI-Voice-1:自然的聲音和令人驚嘆的性能

語音合成技術

最引人注目的技術數據是它的推理性能。系統生成 使用單一 GPU 即可在近乎瞬間完成 60 秒的音頻,使其成為需要立即回應的體驗的非常有競爭力的選擇。

獨家內容 - 點擊這裡  AI 能比醫生診斷得更好嗎?微軟醫療 AI 的工作原理如下。

品質也是主角:音色、語調和停頓的聲音 富有表現力且可信,支援單聲道或多聲道場景。保真度和速度之間的平衡是合成語音的關鍵,它不會分散注意力,而是與內容相得益彰。

在哪裡進行測試以及提供哪些工具

MAI-Voice-1 現已整合到 Copilot Daily 和 Podcasts 中,它促進了口頭摘要和即時生成的內容。 它也可以在 Copilot Labs 中使用,這是 Microsoft 展示新功能的環境,任何人都可以嘗試這些功能。

在這個測試空間裡,該公司提供講故事和富有表現力的語音體驗,旨在探索該模型的潛力。示範可以讓你測試 人工智慧如何應對 更感性或更具描述性的閱讀風格以及它如何在高速下保持清晰度。

使用思路和場景

應用範圍很廣。對於 說故事、語音導覽或冥想,模型的表現力有助於傳達意圖而不會聽起來像機器人,這項要求在沉浸式內容中越來越受到重視。

獨家內容 - 點擊這裡  榮耀展示一款有機械手臂的手機:概念和用途

在商業領域,畫外音生成可以加速 內部培訓、客戶服務 或用於行銷的多媒體作品。 MAI-Voice-1 的速度縮短了製作時間,並使其更容易迭代,直到找到合適的基調。

另一個有希望的路線是 需要非常低的延遲才能使現場聽起來更自然. 憑藉快速且靈活的引擎, 無需依賴大型基礎設施,即可更輕鬆地將語音整合到互動流程中.

為什麼它對產品和成本很重要

計算效率 允許擴充而不增加成本:能夠使用單一 GPU 進行操作 它降低了進入門檻,為產品團隊和獨立創作者打開了更容易進行的試點和部署的大門。

同時,微軟強調其語音系統中負責任的設計的重要性:表達力著重於理解和實用性, 不賦予其任何感情或意圖 對模型來說。換句話說,就是要有一種令人信服的聲音,讓人無法相信電話那頭有人。

獨家內容 - 點擊這裡  在 Windows 0 中開啟遊戲或應用程式時發生錯誤 000007xc11b 的解決方案

透過這項提案,MAI-Voice-1 旨在成為 下一代口語體驗: 快速、靈活且音質出色,旨在無縫整合到響應時間和品質至關重要的產品中。