- Gemini 2.5 Flash Native Audio 利用谷歌的 AI 技术,提高了语音对话的自然度、准确性和流畅性。
- 该模型优化了对外部函数的调用,更好地遵循复杂的指令,并在长对话中更好地保持上下文。
- 它集成了实时语音翻译功能,支持 70 多种语言和 2.000 多个翻译对,并保留语调和节奏。
- 它已集成到 Google AI Studio、Vertex AI、Gemini Live 和 Search Live 中,并正在 Google 和第三方产品中部署。
谷歌通过一项重大更新,在其人工智能生态系统的发展进程中又迈出了重要一步。 Gemini 2.5 Flash 原生音频该模型旨在实时理解和生成音频。这项技术旨在提高语音交互的效率。 更接近人际对话无论在日常生活中还是在职业环境中。
这远非仅仅是为助手的回答“赋予声音”,而且与其他选项相比, 语音人工智能对比该型号专为 维持自然、功能性和语境性的对话, 决定何时寻求更多信息,以及在不中断对话的情况下处理复杂的指令通过此举,谷歌重申了其将语音作为与其人工智能服务交互的主要方式的承诺。
Gemini 2.5 Flash Native Audio是什么?它在哪里使用?
Gemini 2.5 Flash Native Audio 是谷歌原生音频模型的最新版本,能够…… 倾听、理解并用声音回应 实时处理。与以往仅专注于语音合成的系统不同,该引擎旨在同时处理音频输入和输出,使其特别适合用于对话式助手。
该公司已将此版本集成到其几个关键平台中: Google AI Studio、Vertex AI、Gemini Live 和 Search Live这意味着开发者和公司都可以开始构建 高级语音代理 采用与谷歌最新对话式人工智能体验相同的技术。
实际上,用户会在以下体验中注意到这些变化: 双子座现场 (与助手进行语音对话的模式)或在 实时搜索 在谷歌应用的AI模式下,语音回复听起来很悦耳。 更具表现力、更清晰、更贴近语境此外,你甚至可以要求助手说慢一点,自然地调整对话节奏。
除了谷歌自身之外,这些功能也已通过以下方式提供给第三方: Vertex AI 和 Gemini API以便其他公司也能创建 自主代理 语音助手、虚拟接待员或辅助工具,都具备同等水平的语音技术。
更精准的外部功能和更优质的型号

Gemini 2.5 Flash Native Audio 取得最大进步的领域之一是其处理能力: 调用外部函数简单来说,该模型在决策方面现在更加可靠了。 当您需要查询实时服务或数据时例如,用于检索更新信息、检查订单状态或启动自动化流程。
谷歌指出,这种更高的精确度意味着触发操作时出错率更低,从而减少了助手反应迟钝或过早行动的尴尬情况。该系统能够…… 将检索到的数据插入音频响应中 用户不会感觉到对话有任何突然中断。
为了衡量这些进步,该公司对该模型进行了如下测试: ComplexFuncBench 音频这是一个专注于具有约束条件的多阶段任务的评估平台。在此场景下,Gemini 2.5 Flash Native Audio 取得了大约 100% 的成绩。 执行复杂功能的成功率为 71,5%使其优于之前的版本和同类产品中的其他竞争型号。
这种性能在需要复杂自动化工作流程的场景中尤为重要,例如: 呼叫中心、技术支持或交易处理 (例如财务或行政任务)其中每个步骤都依赖于前一个步骤,几乎没有出错的余地。
更好的指令跟踪和更连贯的对话
此次更新的另一个重点是模型 理解并遵守指示 它从终端用户和开发者那里获取信息。根据谷歌发布的数据,指令遵守率已从 84% 下降到 90% 依从性这意味着回复要更符合实际要求。
这种飞跃在需要它的任务中至关重要。 复杂的指令、多个步骤或多个条件例如,当要求以特定风格进行解释、要求在特定时间限制内提供摘要,或者设置依赖于多个相关决策的工作流程时。
与此相关,Gemini 2.5 Flash Native Audio 获得了以下功能: 获取先前消息的上下文在多轮对话中,该模型能够更好地记住说过的话、用户引入的细微差别以及对话过程中所做的更正。
会话记忆力的提高减少了反复重复相同信息的需要,有助于提高互动效率。 更流畅,更少令人沮丧这种体验更像是与人交谈,对方会接着上次中断的话题继续聊下去,而不是每次都从头开始回答问题。
真实案例:从电子商务到金融服务
除了内部指标外,谷歌还依靠客户案例来展示 Gemini 2.5 Flash Native Audio 的实际影响。在电子商务领域,Shopify 已将这些功能集成到其助手程序中。 Sidekick的,它可以帮助零售商管理他们的店铺并解决有关业务的疑问。
据该公司称,许多用户 他们甚至忘记了自己是在和人工智能对话。 经过几分钟的对话,用户在提出冗长的问题后甚至向机器人表示了感谢。这种反应表明,自然流畅的沟通方式和语气的提升,正让技术在不知不觉中退居次要地位。
在金融领域,服务提供商 联合批发抵押贷款公司 (UWM) 该公司已将该模型集成到其“Mia”助手系统中,用于管理抵押贷款相关流程。该公司声称,结合Gemini 2.5和其他内部系统,已实现…… 已处理超过14.000笔贷款 对于其合作伙伴而言,依赖于需要准确性和合规性的自动化交互。
就其自身而言,这家初创公司 新人工智能 它使用基于 Vertex AI 的 Gemini 2.5 Flash Native Audio 来驱动其 虚拟接待员这些语音助手即使在嘈杂的环境中也能识别主要说话者,能够在对话过程中切换语言,并保持…… 自然的声音音色,带有情感上的细微差别这在客户服务中至关重要。
实时语音翻译:支持更多语言,更能捕捉细微差别
此版本中最引人注目的新增内容之一是: 实时语音翻译Gemini 2.5 Flash Native Audio 最初集成到 Google Translate 应用中,它不仅限于将音频转换为文本或提供片段式翻译,还能带来更沉浸式的体验。 同声传译 更接近人类的解读。
该系统可以以以下模式运行: 持续聆听这样一来,用户只需戴上耳机,就能听到周围环境被翻译成自己母语的声音,无需暂停或逐句按键。这项功能在旅行、参加国际会议或涉及多种语言的活动中非常实用。
也考虑了以下情况: 双向对话例如,如果一人说英语,另一人说印地语,耳机会实时播放英语翻译,而手机则会在第一人说完后播放印地语翻译。系统会根据说话者自动切换输出语言,无需用户在轮流发言时更改设置。
该功能最相关的细节之一是它能够: 保持原有的音调、节奏和音色 这使得翻译听起来不那么机械,更接近说话者的语调,从而更容易理解,也让体验更加自然。
语言支持、自动检测和噪声过滤
就语言范围而言,基于 Gemini 2.5 的语音翻译支持以下语言: 支持超过70种语言和约2.000个翻译对该模型结合了其世界知识、多语言和母语音频功能,可以涵盖广泛的语言组合,包括许多其他工具并不总是优先考虑的语言组合。
该系统可以管理 多语言条目 在单次会话中,它可以同时理解多种语言,无需用户每次切换语言时都手动调整设置。这项功能在自然混合使用多种语言的对话中尤为实用。
多亏了 自动检测口语用户无需事先知道对话者使用的语言:该模型能够识别语言并即时开始翻译,从而减少摩擦和中间步骤。
Gemini 2.5 Flash Native Audio 还包含以下机制: 抗噪声鲁棒性它可以过滤掉一些环境噪音,优先显示主要人声,从而在繁忙的街道、空旷的场所或有背景音乐的地方进行更舒适的对话。
欧洲的可用性、部署和前景
基于此模型的实时语音翻译目前已可用 Google 翻译应用的测试阶段 适用于美国、墨西哥和印度等市场的安卓设备。谷歌已确认该服务将逐步推出。 更多地区和平台包括其他移动系统。
与此同时,Gemini 2.5 Flash Native Audio 的集成 Gemini Live 和 Search Live 这项功能正逐步向安卓和iOS平台的谷歌应用用户推出,首先在美国上线。随着这些功能日趋完善,并通过初步测试和适配阶段,预计也将陆续推广到其他地区。 更多国家,大概包括欧洲市场其中,对翻译和语音助手的需求尤其高。
谷歌还宣布计划将这种语音和翻译体验整合到其他产品中,包括…… 双子座 API在接下来的几个月和几年里,这将为欧洲旅游、物流、教育和公共管理等行业的公司打开大门,使他们能够直接将这些能力整合到自己的服务中。
该公司推出这些新功能,是其旨在帮助开发者实现更广泛战略的一部分。 构建具有自然语音的对话代理 从现在开始,我们将利用 Gemini 2.5 Flash Native Audio 以及 2.5 Flash 和 Pro 系列中的其他型号,实现更可控的语音生成(调整音调、意图、速度等)和帧等功能。 智能人工智能基金会.
通过这一系列改进,谷歌进一步强化了语音将成为与人工智能交互的主要渠道之一的理念:从处理客户来电和处理复杂操作的助手,到促进语言不通的人们之间沟通的同声传译系统。 Gemini 2.5 Flash Native Audio 是这项工作的核心,它能够微调语音理解和表达。 在等待该技术在欧洲和其他市场全面部署的同时,使其在日常生活中更加实用且更少干扰。
我是一名技术爱好者,已将自己的“极客”兴趣变成了职业。出于纯粹的好奇心,我花了 10 多年的时间使用尖端技术并修改各种程序。现在我专攻计算机技术和视频游戏。这是因为 5 年多来,我一直在为各种技术和视频游戏网站撰写文章,旨在以每个人都能理解的语言为您提供所需的信息。
如果您有任何疑问,我的知识范围涵盖与 Windows 操作系统以及手机 Android 相关的所有内容。我对您的承诺是,我总是愿意花几分钟帮助您解决在这个互联网世界中可能遇到的任何问题。
