- Gemini 2.5 Flash Native Audio 利用Google的 AI 技術,提高了語音對話的自然度、準確性和流暢性。
- 該模型優化了對外部函數的調用,更好地遵循複雜的指令,並在長對話中更好地保持上下文。
- 它整合了即時語音翻譯功能,支援 70 多種語言和 2.000 多個翻譯對,並保留語調和節奏。
- 它已整合到 Google AI Studio、Vertex AI、Gemini Live 和 Search Live 中,並正在 Google 和第三方產品中部署。
谷歌透過一項重大更新,在其人工智慧生態系統的發展過程中又邁出了重要一步。 Gemini 2.5 Flash 原生音訊該模型旨在即時理解和生成音訊。這項技術旨在提高語音互動的效率。 更接近人際對話無論在日常生活還是在職業環境中。
這遠非僅僅是為助手的回答“賦予聲音”,而且與其他選項相比, 語音人工智慧對比此型號專為 維持自然、功能性和脈絡性的對話, 決定何時尋求更多信息,以及在不中斷對話的情況下處理複雜的指令透過此舉,谷歌重申了其將語音作為與其人工智慧服務互動的主要方式的承諾。
Gemini 2.5 Flash Native Audio是什麼?它在哪裡使用?
Gemini 2.5 Flash Native Audio 是Google原生音訊模型的最新版本,能夠… 聆聽、理解並以聲音回應 即時處理。與以往僅專注於語音合成的系統不同,該引擎旨在同時處理音訊輸入和輸出,使其特別適合用於對話式助理。
該公司已將此版本整合到其幾個關鍵平台中: Google AI Studio、Vertex AI、Gemini Live 與 Search Live這意味著開發者和公司都可以開始構建 高級語音代理 採用與Google最新對話式人工智慧體驗相同的技術。
實際上,使用者會在以下體驗中註意到這些變化: 雙子座現場 (與助手進行語音對話的模式)或在 即時搜尋 在Google應用的AI模式下,語音回覆聽起來很悅耳。 更具表現力、更清晰、更貼近語境此外,你甚至可以請助手說慢一點,自然地調整對話節奏。
除了Google自身之外,這些功能也已透過以下方式提供給第三方: Vertex AI 和 Gemini API以便其他公司也能創建 個體經營者 語音助理、虛擬接待員或輔助工具,都具備同等程度的語音技術。
更精準的外部功能和更優質的型號

Gemini 2.5 Flash Native Audio 取得最大進步的領域之一是其處理能力: 呼叫外部函數簡單來說,該模型在決策方面現在更加可靠了。 當您需要查詢即時服務或資料時例如,用於檢索更新資訊、檢查訂單狀態或啟動自動化流程。
谷歌指出,這種更高的精確度意味著觸發操作時出錯率更低,從而減少了助手反應遲鈍或過早行動的尷尬情況。該系統能夠… 將檢索到的資料插入音訊回應中 用戶不會感覺到對話有任何突然中斷。
為了衡量這些進步,該公司對該模型進行瞭如下測試: ComplexFuncBench 音訊這是一個專注於具有約束條件的多階段任務的評估平台。在此場景下,Gemini 2.5 Flash Native Audio 取得了約 100% 的成績。 執行複雜功能的成功率為 71,5%使其優於先前的版本和同類產品中的其他競爭型號。
這種效能在需要複雜自動化工作流程的場景中尤其重要,例如: 呼叫中心、技術支援或交易處理 (例如財務或行政任務)其中每個步驟都依賴前一個步驟,幾乎沒有出錯的餘地。
更好的指令追蹤和更連貫的對話
這次更新的另一個重點是模型 理解並遵守指示 它從終端用戶和開發者那裡獲取資訊。根據Google發布的數據,指令遵守率已從 84% 下降到 90% 依從性這意味著回復要更符合實際要求。
這種飛躍在需要它的任務中至關重要。 複雜的指令、多個步驟或多個條件例如,當要求以特定風格進行解釋、要求在特定時間限制內提供摘要,或設定依賴多個相關決策的工作流程。
與此相關,Gemini 2.5 Flash Native Audio 獲得了以下功能: 取得先前訊息的上下文在多輪對話中,該模型能夠更好地記住所說的話、用戶引入的細微差別以及對話過程中所做的更正。
會話記憶力的提升減少了重複重複相同訊息的需要,有助於提高互動效率。 更流暢,更少令人沮喪這種體驗更像是與人交談,對方會接著上次中斷的話題繼續聊下去,而不是每次都從頭開始回答問題。
真實案例:從電子商務到金融服務
除了內部指標外,Google還依靠客戶案例來展示 Gemini 2.5 Flash Native Audio 的實際影響。在電子商務領域,Shopify 已將這些功能整合到其助理程式中。 Sidekick的,它可以幫助零售商管理他們的店鋪並解決有關業務的疑問。
據該公司稱,許多用戶 他們甚至忘記了自己是在和人工智慧對話。 經過幾分鐘的對話,用戶在提出冗長的問題後甚至向機器人表達了感謝。這種反應表明,自然流暢的溝通方式和語氣的提升,正讓技術在不知不覺中退居次要地位。
在金融領域,服務提供者 聯合批發抵押貸款公司 (UWM) 該公司已將該模型整合到其「Mia」助手系統中,用於管理抵押貸款相關流程。該公司聲稱,結合Gemini 2.5和其他內部系統,已實現… 已處理超過14.000筆貸款 對於其合作夥伴而言,依賴需要準確性和合規性的自動化互動。
就其本身而言,這家新創公司 Newo.ai 它使用基於 Vertex AI 的 Gemini 2.5 Flash Native Audio 來驅動其 虛擬接待員這些語音助理即使在嘈雜的環境中也能識別主要說話者,能夠在對話過程中切換語言,並保持… 自然的聲音音色,帶有情感上的細微差別這在客戶服務中至關重要。
即時語音翻譯:支援更多語言,更能捕捉細微差別
此版本中最引人注目的新增內容之一是: 即時語音翻譯Gemini 2.5 Flash Native Audio 最初整合到 Google Translate 應用中,它不僅限於將音訊轉換為文字或提供片段式翻譯,還能帶來更沉浸式的體驗。 同聲傳譯 更接近人類的解讀。
該系統可以以以下模式運作: 持續聆聽這樣一來,使用者只需戴上耳機,就能聽到周圍環境翻譯成自己母語的聲音,無需暫停或逐句按鍵。這項功能在旅行、參加國際會議或涉及多種語言的活動中非常實用。
也考慮了以下情況: 雙向對話例如,如果一人說英語,另一人說印地語,耳機會即時播放英語翻譯,而手機則會在第一人說完後播放印地語翻譯。系統會根據說話者自動切換輸出語言,無需使用者在輪流發言時更改設定。
該功能最相關的細節之一是它能夠: 保持原有的音調、節奏和音色 這使得翻譯聽起來不那麼機械,更接近說話者的語調,從而更容易理解,也讓體驗更加自然。
語言支援、自動偵測和雜訊過濾
就語言範圍而言,基於 Gemini 2.5 的語音翻譯支援以下語言: 支援超過70種語言和約2.000個翻譯對該模型結合了其世界知識、多語言和母語音訊功能,可以涵蓋廣泛的語言組合,包括許多其他工具並不總是優先考慮的語言組合。
該系統可以管理 多語言條目 在單次會話中,它可以同時理解多種語言,而無需使用者每次切換語言時手動調整設定。這項功能在自然混合使用多種語言的對話中尤其實用。
多虧了 自動偵測口語使用者無需事先知道對話者使用的語言:該模型能夠識別語言並立即開始翻譯,從而減少摩擦和中間步驟。
Gemini 2.5 Flash Native Audio 也包含以下機制: 抗噪音穩健性它可以過濾掉一些環境噪音,優先顯示主要人聲,從而在繁忙的街道、空曠的場所或有背景音樂的地方進行更舒適的對話。
歐洲的可用性、部署和前景
基於此模型的即時語音翻譯目前已可用 Google 翻譯應用程式的測試階段 適用於美國、墨西哥和印度等市場的安卓設備。谷歌已確認,該服務將逐步推出。 更多地區和平台包括其他移動系統。
同時,Gemini 2.5 Flash Native Audio 的集成 Gemini Live 和 Search Live 這項功能正逐步向安卓和iOS平台的Google應用用戶推出,首先在美國上線。隨著這些功能日趨完善,並通過初步測試和適配階段,預計也將陸續推廣到其他地區。 更多國家,大概包括歐洲市場其中,對翻譯和語音助理的需求尤其高。
谷歌也宣布計劃將這種語音和翻譯體驗整合到其他產品中,包括… 雙子座 API在接下來的幾個月和幾年裡,這將為歐洲旅遊、物流、教育和公共管理等行業的公司打開大門,使他們能夠直接將這些能力整合到自己的服務中。
該公司推出這些新功能,是其旨在幫助開發者實現更廣泛策略的一部分。 建構具有自然語音的對話代理 從現在開始,我們將利用 Gemini 2.5 Flash Native Audio 以及 2.5 Flash 和 Pro 系列中的其他型號,以實現更可控的語音生成(調整音調、意圖、速度等)和幀等功能。 智慧人工智慧基金會.
透過這一系列改進,Google進一步強化了語音將成為與人工智慧互動的主要管道之一的理念:從處理客戶來電和處理複雜操作的助手,到促進語言不通的人們之間溝通的同聲傳譯系統。 Gemini 2.5 Flash Native Audio 是這項工作的核心,它能夠微調語音理解和表達。 在等待該技術在歐洲和其他市場全面部署的同時,使其在日常生活中更加實用且更少干擾。
我是一名技術愛好者,已將自己的“極客”興趣變成了職業。出於純粹的好奇心,我花了 10 多年的時間使用尖端技術並修改各種程序。現在我專攻電腦技術和電玩遊戲。這是因為五年多來,我一直在為各種技術和視頻遊戲網站撰寫文章,力求以每個人都能理解的語言為您提供所需的資訊。
如果您有任何疑問,我的知識範圍涵蓋與 Windows 作業系統以及手機 Android 相關的所有內容。我對您的承諾是,我總是願意花幾分鐘幫助您解決在這個網路世界中可能遇到的任何問題。
