Gemini 2.5 Flash Native Audio: Jen kiel ŝanĝiĝas la AI-voĉo de Google

Lasta ĝisdatigo: 15/12/2025

  • Gemini 2.5 Flash Native Audio plibonigas la naturecon, precizecon kaj fluecon de voĉkonversacioj per la artefarita inteligenteco de Google.
  • La modelo rafinas alvokojn al eksteraj funkcioj, pli bone sekvas kompleksajn instrukciojn, kaj pli bone konservas kuntekston en longaj dialogoj.
  • Ĝi inkluzivas realtempan voĉ-al-voĉan tradukadon, kun subteno por pli ol 70 lingvoj kaj 2 000 tradukparoj, konservante intonacion kaj ritmon.
  • Ĝi jam estas integrita en Google AI Studio, Vertex AI, Gemini Live kaj Search Live, kaj estas deplojata en Google kaj triapartaj produktoj.

Gemini 2.5 Fulma Indiĝena Aŭdio

Google faris plian paŝon en la evoluo de sia artefarita inteligenteca ekosistemo per grava ĝisdatigo al Gemini 2.5 Fulma Indiĝena AŭdioLa modelo estas desegnita por kompreni kaj generi aŭdion en reala tempo. Ĉi tiu teknologio celas pli efikigi voĉajn interagojn. pli proksime al homa konversaciokaj en ĉiutaga vivo kaj en profesiaj medioj.

Malproksime de simple "aldoni voĉon" al la respondoj de asistanto, kaj kompare kun aliaj ebloj en komparoj de voĉa artefarita inteligentecoĈi tiu modelo estas desegnita por subteni naturajn, funkciajn kaj kontekstajn dialogojn, decidi kiam serĉi pliajn informojn kaj administri kompleksajn instrukciojn sen interrompi la fluon de la konversacioPer tio, Google plifortigas sian engaĝiĝon al voĉo kiel la ĉefa rimedo de interagado kun siaj AI-servoj.

Kio estas Gemini 2.5 Flash Native Audio kaj kie ĝi estas uzata?

Gemini 2.5 Flash Native Audio estas la plej nova versio de la denaska aŭdiomodelo de Google, kapabla je aŭskultu, komprenu kaj respondu per voĉo en reala tempo. Male al antaŭaj sistemoj fokusitaj nur pri parolsintezo, ĉi tiu motoro estas desegnita por funkcii kun aŭdio kiel kaj enigo kaj eligo samtempe, igante ĝin aparte taŭga por konversaciaj asistantoj.

La kompanio jam integris ĉi tiun version en plurajn el siaj ĉefaj platformoj: Google AI Studio, Vertex AI, Gemini Live kaj Search LiveTio signifas, ke kaj programistoj kaj kompanioj povas komenci konstrui progresintaj voĉagentoj per la sama teknologio, kiu funkciigas la plej novajn konversaciajn AI-spertojn de Google.

En praktiko, uzantoj rimarkos ĉi tiujn ŝanĝojn en spertoj kiel ekzemple Gemini Live (la voĉa konversacia reĝimo kun la asistanto) aŭ en Serĉi Rekte ene de la AI-reĝimo de la Google-aplikaĵo, kie la parolataj respondoj sonas pli esprimplena, pli klara, kaj pli bone kontekstuigitaKrome, vi eĉ povas peti la asistanton paroli pli malrapide, adaptante la ritmon de la konversacio nature.

Preter Google mem, ĉi tiuj kapabloj estis haveblaj al triaj partioj per Vertex AI kaj la Gemini APIpor ke aliaj kompanioj povu krei aŭtonomaj agentoj voĉo, virtualaj akceptistoj aŭ helpiloj kun la sama nivelo de voĉa sofistikeco.

Pli precizaj eksteraj funkcioj kaj pli bone taksitaj modeloj

Voĉa artefarita inteligenteco de Google

Unu el la areoj kie Gemini 2.5 Flash Native Audio faris la plej grandan progreson estas en sia kapablo alvoki eksterajn funkciojnSimple dirite, la modelo nun estas pli fidinda kiam temas pri decidoj. kiam vi bezonas konsulti realtempajn servojn aŭ datumojnEkzemple, por akiri ĝisdatigitajn informojn, kontroli la staton de mendo aŭ lanĉi aŭtomatan procezon.

Ekskluziva enhavo - Klaku Ĉi tie  Kiel meti Guglo-desegnaĵon en Google Slides

Google atentigas, ke ĉi tiu aldonita precizeco tradukiĝas al malpli da eraroj dum ekigado de agoj, reduktante embarasajn situaciojn, kie la asistanto malsukcesas aŭ agas trofrue. La sistemo kapablas enigu la ricevitajn datumojn en la sonrespondon sen ke la uzanto perceptu iujn ajn subitajn interrompojn en la konversacio.

Por mezuri ĉi tiujn progresojn, la kompanio submetis la modelon al testoj kiel ekzemple KompleksaFuncBench Aŭdio, taksada benko fokusita sur plurŝtupaj taskoj kun limigoj. En ĉi tiu scenaro, Gemini 2.5 Flash Native Audio atingis ĉirkaŭ 71,5% sukcesfrekvenco en efektivigo de kompleksaj funkcioj, metante ĝin super antaŭajn ripetojn kaj aliajn konkurantajn modelojn en ĉi tiu speco de uzo.

Ĉi tiu efikeco estas aparte grava en kuntekstoj kie necesas sofistikaj aŭtomataj laborfluoj, kiel ekzemple vokcentroj, teknika subteno aŭ transakcia prilaborado (ekzemple, financaj aŭ administraj taskoj) kie ĉiu paŝo dependas de la antaŭa kaj estas malmulte da spaco por eraroj.

Pli bona instrukciospurado kaj pli koheraj konversaciaj fadenoj

Alia fokuso de la ĝisdatigo estas kiel la modelo interpreti kaj respekti la instrukciojn kiun ĝi ricevas kaj de finuzantoj kaj de programistoj. Laŭ datumoj publikigitaj de Google, la instrukcia plenumo-procento falis de 84% al 90% adheroTio signifas respondojn, kiuj pli konformas al tio, kio efektive estis petita.

Ĉi tiu salto estas ŝlosila en taskoj kie ĝi estas necesa kompleksaj instrukcioj, pluraj paŝoj, aŭ pluraj kondiĉojEkzemple, kiam oni petas klarigon en specifa stilo, petas resumon kun certaj tempolimoj, aŭ starigas laborfluon kiu dependas de pluraj ligitaj decidoj.

Rilate al tio, Gemini 2.5 Flash Native Audio akiris la kapablon Akiri la kuntekston de antaŭaj mesaĝojEn plurturnaj konversacioj, la modelo pli bone memoras la diron, la nuancojn enkondukitajn de la uzanto, kaj la korektojn faritajn dum la dialogo.

Ĉi tiu plibonigo en konversacia memoro reduktas la bezonon ripeti la samajn informojn denove kaj denove kaj helpas igi interagojn pli efikaj. pli glata kaj malpli frustrantaLa sperto estas pli simila al parolado kun persono, kiu reprenas temon de kie ili ĉesis, anstataŭ rekomenci de nulo kun ĉiu respondo.

Realmondaj uzokazoj: de e-komerco ĝis financaj servoj

Krom internaj metrikoj, Google fidas je klientaj ekzemploj por ilustri la praktikan efikon de Gemini 2.5 Flash Native Audio. En la sektoro de e-komerco, Shopify integrigis ĉi tiujn kapablojn en sian asistanton. Sidekick", kiu helpas podetalistojn administri siajn butikojn kaj solvi dubojn pri la komerco.

Ekskluziva enhavo - Klaku Ĉi tie  LinkedIn ĝustigas sian artefaritan inteligentecon: ŝanĝoj pri privateco, regionoj, kaj kiel malŝalti ĝin

Laŭ la kompanio, multaj uzantoj Ili eĉ forgesas, ke ili parolas al artefarita inteligenteco. Post kelkaj minutoj da konversacio, la uzanto eĉ dankis la roboton post longa demando. Ĉi tiu speco de reago sugestas, ke progresoj en natureco kaj tono igas teknologion subtile malplivaloriĝi.

En la financa sektoro, la provizanto Unuiĝinta Pogranda Hipoteko (UWM) Ĝi integris la modelon en sian asistanton "Mia" por administri hipotek-rilatajn procezojn. Kun la kombinaĵo de Gemini 2.5 kaj aliaj internaj sistemoj, la kompanio asertas havi prilaboris pli ol 14 000 pruntojn por siaj partneroj, fidante je aŭtomataj interagoj, kiuj postulas precizecon kaj reguligan konformecon.

Siaflanke, la noventrepreno Newo.ai Ĝi uzas Gemini 2.5 Flash Native Audio per Vertex AI por funkciigi sian virtualaj akceptistojĈi tiuj voĉasistantoj kapablas identigi la ĉefan parolanton eĉ en bruaj medioj, ŝanĝi lingvojn meze de konversacio, kaj konservi natura voĉregistro kun emociaj nuancojkiu estas decida en klienta servo.

Realtempa voĉ-al-voĉa tradukado: pli da lingvoj kaj pli da nuancoj

Unu el la plej frapaj aldonoj en ĉi tiu versio estas la viva voĉ-al-voĉa tradukadoKomence integrita en la aplikaĵon Google Translate, Gemini 2.5 Flash Native Audio iras preter simpla konvertado de aŭdio al teksto aŭ ofertado de fragmentaj tradukoj, ebligante pli mergan sperton. samtempa traduko pli proksima al homa interpreto.

La sistemo povas funkcii en reĝimo de kontinua aŭskultadoĈi tio permesas al la uzanto surmeti aŭdilojn kaj aŭdi kio okazas ĉirkaŭ si tradukite en sian lingvon, sen devi paŭzi aŭ premi butonojn por ĉiu frazo. Ĉi tiu opcio povas esti utila dum vojaĝado, partoprenado de internaciaj kunvenoj aŭ ĉe eventoj kie pluraj lingvoj estas implikitaj.

Oni ankaŭ konsideris situaciojn de dudirekta konversacioEkzemple, se unu persono parolas angle kaj la alia hindie, la aŭdiloj ludas la anglan tradukon en reala tempo, dum la telefono ludas la hindian tradukon post kiam la unua persono finas paroli. La sistemo aŭtomate ŝanĝas la eligan lingvon depende de kiu parolas, sen ke la uzanto devu ŝanĝi agordojn inter vicoj.

Unu el la plej gravaj detaloj de ĉi tiu funkcio estas ĝia kapablo konservi la originalan intonacion, ritmon kaj tonon de la parolanto. Tio rezultas en tradukoj kiuj sonas malpli robote kaj pli proksime al la voĉstilo de la parolanto, igante ilin pli facile kompreneblaj kaj la sperton pli natura.

Lingva subteno, aŭtomata detekto kaj bruofiltrado

Rilate al lingva amplekso, voĉa tradukado bazita sur Gemini 2.5 ofertas subtenon por pli ol 70 lingvoj kaj ĉirkaŭ 2 000 tradukparojKombinante la mondan scion de la modelo kun ĝiaj plurlingvaj kaj denaskaj aŭdaj kapabloj, ĝi povas kovri vastan gamon da lingvokombinaĵoj, inkluzive multajn, kiujn aliaj iloj ne ĉiam prioritatigas.

Ekskluziva enhavo - Klaku Ĉi tie  La plej bonaj klavarmallongigoj en Grok Code Fast 1 por programi pli rapide

La sistemo povas administri plurlingva eniro Ene de ununura sesio, ĝi komprenas pli ol unu lingvon samtempe sen devi permane ŝanĝi la agordojn ĉiufoje kiam iu ŝanĝas lingvon. Ĉi tiu funkcio estas aparte utila en konversacioj kie pluraj lingvoj estas nature miksitaj.

Danke al la aŭtomata detekto de parolata lingvoLa uzanto ne bezonas scii anticipe en kiu lingvo ilia interparolanto komunikas: la modelo identigas la lingvon kaj komencas traduki dum la procezo, reduktante frikcion kaj interajn paŝojn.

Gemini 2.5 Flash Native Audio ankaŭ inkluzivas mekanismojn por fortikeco kontraŭ bruoĜi kapablas filtri iom da la ĉirkaŭa sono por prioritatigi la ĉefan voĉon, permesante pli komfortajn konversaciojn en okupataj stratoj, liberaj areoj aŭ lokoj kun fona muziko.

Havebleco, deplojo kaj perspektivoj por Eŭropo

Viva voĉa tradukado bazita sur ĉi tiu modelo nuntempe haveblas en beta-fazo en la aplikaĵo Google Translate por Android-aparatoj en merkatoj kiel Usono, Meksiko kaj Barato. Google konfirmis, ke la servo estos laŭgrade enkondukita al pli da regionoj kaj platformoj, inkluzive de aliaj moveblaj sistemoj.

Paralele, la integriĝo de Gemini 2.5 Flash Native Audio en Ĝemeloj Vivas kaj Serĉas Vivan Ĝi estas lanĉata al uzantoj de la Google-aplikaĵo en Android kaj iOS, komencante en Usono. Dum ĉi tiuj funkcioj maturiĝas kaj pasas la komencajn testajn kaj adaptajn fazojn, oni atendas, ke ili alvenos ankaŭ en aliajn regionojn. pli da landoj, supozeble inkluzive de eŭropaj merkatoj, kie la postulo je tradukaj kaj voĉaj asistantoj estas aparte alta.

Google ankaŭ anoncis sian intencon integri ĉi tiun voĉan kaj tradukan sperton en aliajn produktojn, inkluzive de la Ĝemeloj APIDum la venontaj monatoj kaj jaroj, tio malfermus la pordon por eŭropaj kompanioj en sektoroj kiel turismo, loĝistiko, edukado kaj publika administrado por rekte integri ĉi tiujn kapablojn en siajn proprajn servojn.

La kompanio prezentas ĉi tiujn novajn funkciojn kiel parton de pli vasta strategio por ebligi al programistoj... krei konversaciajn agentojn kun natura voĉo De nun, utiligante kaj Gemini 2.5 Flash Native Audio kaj aliajn modelojn en la 2.5 Flash kaj Pro familioj, celantajn pli kontrolitan voĉgeneradon (alĝustigante tonon, intencon, rapidon, ktp.) kaj kadrojn kiel ekzemple Agenta AI-Fonduso.

Per ĉi tiu aro da plibonigoj, Google plifortigas la ideon, ke voĉo estos unu el la ĉefaj kanaloj de interagado kun artefarita inteligenteco: de asistantoj, kiuj prizorgas klientajn vokojn kaj prilaboras kompleksajn operaciojn, ĝis samtempaj traduksistemoj, kiuj faciligas komunikadon inter homoj, kiuj ne dividas saman lingvon. Gemini 2.5 Flash Native Audio estas la kerno de ĉi tiu klopodo, fajnagordante kaj voĉkomprenon kaj esprimon. igi la teknologion pli utila kaj malpli trudema en la ĉiutaga vivo, dum oni atendas ĝian plenan deplojon en Eŭropo kaj aliaj merkatoj.

Voice.ai kontraŭ ElevenLabs kontraŭ Udio: Kiu sonas pli bone?
Rilata artikolo:
Voice.ai kontraŭ ElevenLabs kontraŭ Udio: Kompleta komparo de AI-voĉoj