Gemini 2.5 Flash Native Audio: Mao kini ang pagbag-o sa tingog sa AI sa Google

Katapusan nga pag-update: 15/12/2025

  • Ang Gemini 2.5 Flash Native Audio nagpauswag sa pagkanatural, katukma, ug pagka-fluid sa mga panag-istoryahanay gamit ang AI sa Google.
  • Ang modelo nagpino sa mga tawag sa mga eksternal nga gimbuhaton, mas maayo nga nagsunod sa mga komplikado nga instruksyon, ug mas maayo nga nagmintinar sa konteksto sa taas nga mga diyalogo.
  • Naglakip kini sa real-time nga voice-to-voice nga paghubad, nga adunay suporta alang sa kapin sa 70 ka mga pinulongan ug 2.000 ka pares sa paghubad, nga nagpreserbar sa intonasyon ug ritmo.
  • Nalakip na kini sa Google AI Studio, Vertex AI, Gemini Live ug Search Live, ug gigamit na sa Google ug mga produkto sa third-party.

Gemini 2.5 Flash Lumad nga Audio

Ang Google mihimo og laing lakang sa ebolusyon sa ekosistema sa artificial intelligence niini pinaagi sa usa ka dakong update sa Gemini 2.5 Flash Lumad nga AudioAng modelo gidisenyo aron masabtan ug makamugna og audio sa tinuod nga oras. Kini nga teknolohiya gituyo aron mahimong mas epektibo ang mga interaksyon sa tingog. mas duol sa panagsultihanay sa tawosa adlaw-adlaw nga kinabuhi ug sa propesyonal nga mga palibot.

Layo ra sa "pagbutang og tingog" sa mga tubag sa usa ka katabang, ug kon itandi sa ubang mga kapilian sa mga pagtandi sa tingog sa AIKini nga modelo gidisenyo alang sa aron mapadayon ang natural, magamit, ug konteksto nga mga diyalogo, paghimo og mga desisyon bahin sa kung kanus-a mangayo og dugang nga impormasyon ug pagdumala sa komplikado nga mga instruksyon nga dili maputol ang dagan sa panag-istoryahanayUban niini, gipalig-on sa Google ang iyang komitment sa tingog isip pangunang paagi sa interaksyon sa mga serbisyo sa AI niini.

Unsa ang Gemini 2.5 Flash Native Audio ug asa kini gigamit?

Ang Gemini 2.5 Flash Native Audio mao ang pinakabag-ong bersyon sa lumad nga modelo sa audio sa Google, nga makahimo sa paminaw, sabta, ug tubaga pinaagi sa tingog sa tinuod nga oras. Dili sama sa nangaging mga sistema nga naka-focus lamang sa speech synthesis, kini nga makina gidisenyo aron mogana sa audio isip input ug output sa samang higayon, nga naghimo niini nga labi ka angay alang sa mga conversational assistant.

Gi-integrate na sa kompanya kini nga bersyon sa pipila sa mga nag-unang plataporma niini: Google AI Studio, Vertex AI, Gemini Live ug Search LiveKini nagpasabot nga ang mga developer ug mga kompanya parehong makasugod na sa pagtukod mga abanteng ahente sa tingog sa samang teknolohiya nga nagpadagan sa pinakabag-ong mga kasinatian sa conversational AI sa Google.

Sa praktis, mamatikdan sa mga tiggamit kini nga mga pagbag-o sa mga kasinatian sama sa Gemini Live (ang voice conversation mode uban sa assistant) o sa Pangitaa Live sulod sa AI mode sa Google app, diin ang gisulti nga mga tubag paminawon mas ekspresyon, mas klaro, ug mas maayo nga na-kontekstoDugang pa, mahimo ka gani nga mohangyo sa assistant nga mosulti og mas hinay, aron natural nga ma-adjust ang dagan sa panag-istoryahanay.

Gawas sa Google mismo, kini nga mga kapabilidad gihimo nga magamit sa mga ikatulo nga partido pinaagi sa Vertex AI ug ang Gemini APIaron ang ubang mga kompanya makahimo og self-employed nga mga ahente tingog, mga virtual nga receptionist o mga himan sa pagtabang nga adunay parehas nga lebel sa kahusayan sa tingog.

Mas tukma nga mga eksternal nga gimbuhaton ug mas maayo nga gi-rate nga mga modelo

Ang tingog sa Google AI

Usa sa mga bahin diin ang Gemini 2.5 Flash Native Audio nakahimo og labing dakong kalamboan mao ang abilidad niini sa tawag sa mga eksternal nga gimbuhatonSa yanong pagkasulti, ang modelo mas kasaligan na karon kon bahin sa paghimo og mga desisyon. kung kinahanglan nimo nga mokonsulta sa mga serbisyo o datos sa real-timePananglitan, aron makuha ang gi-update nga impormasyon, susihon ang status sa usa ka order, o maglunsad og automated nga proseso.

Eksklusibo nga sulud - Pag-klik Dinhi  Giunsa pagbutang ang usa ka drowing sa Google sa Google Slides

Gipunting sa Google nga kining dugang nga katukma moresulta sa mas gamay nga mga sayop sa pag-trigger og mga aksyon, nga makapakunhod sa mga sitwasyon diin ang assistant mapakyas o molihok nga wala sa panahon. Ang sistema makahimo sa isulod ang nakuha nga datos ngadto sa audio response nga dili mamatikdan sa tiggamit ang bisan unsang kalit nga pagputol sa panag-istoryahanay.

Aron masukod kini nga mga pag-uswag, gipailalom sa kompanya ang modelo sa mga pagsulay sama sa ComplexFuncBench Audio, usa ka evaluation bench nga naka-focus sa mga multi-stage nga buluhaton nga adunay mga limitasyon. Niini nga senaryo, ang Gemini 2.5 Flash Native Audio nakab-ot ang gibana-bana nga 71,5% nga rate sa kalampusan sa pagpatuman sa komplikado nga mga gimbuhaton, nga nagbutang niini labaw sa mga nangaging iterasyon ug uban pang kakompetensya nga mga modelo niini nga matang sa paggamit.

Kini nga performance labi ka importante sa mga konteksto diin gikinahanglan ang sopistikado nga automated workflows, sama sa mga call center, teknikal nga suporta o pagproseso sa transaksyon (pananglitan, mga buluhaton sa pinansyal o administratibo) diin ang matag lakang nagdepende sa miaging lakang ug gamay ra ang lugar alang sa sayop.

Mas maayong pagsubay sa instruksyon ug mas makanunayon nga mga hilisgutan sa panag-istoryahanay

Laing pokus sa update mao kung giunsa ang modelo interpretar ug respetuhon ang mga instruksyon nga nadawat niini gikan sa mga end user ug mga developer. Sumala sa datos nga gipagawas sa Google, ang instruction compliance rate miubos gikan sa 84% ngadto sa 90% nga pagsunodKini nagpasabot sa mga tubag nga mas nahiuyon sa kung unsa gyud ang gipangayo.

Kini nga paglukso hinungdanon sa mga buluhaton diin kini gikinahanglan komplikado nga mga instruksyon, daghang mga lakang, o daghang mga kondisyonPananglitan, kon mangayo og katin-awan sa usa ka piho nga estilo, mangayo og katingbanan nga adunay piho nga mga limitasyon sa oras, o maghimo og workflow nga nagdepende sa daghang nalambigit nga mga desisyon.

May kalabotan niini, ang Gemini 2.5 Flash Native Audio nakakuha og abilidad sa Kuhaa ang konteksto sa miaging mga mensaheSa mga panagsulti nga daghang turno, mas mahinumduman sa modelo ang gisulti, ang mga detalye nga gipaila sa tiggamit, ug ang mga pagtul-id nga gihimo sa tibuok diyalogo.

Kining pag-uswag sa memorya sa panagsultihanay makapakunhod sa panginahanglan sa pagsubli sa samang impormasyon balik-balik ug makatabang sa paghimo sa mga interaksyon nga mas epektibo. mas hapsay ug dili kaayo makapaguolAng kasinatian mas duol sa pagpakigsulti sa usa ka tawo nga nagpadayon sa usa ka hilisgutan diin siya mihunong, kaysa magsugod gikan sa wala sa matag tubag.

Mga gamit sa tinuod nga kalibutan: gikan sa e-commerce ngadto sa mga serbisyo sa pinansyal

Gawas sa internal nga mga sukdanan, ang Google nagsalig sa mga ehemplo sa kustomer aron ipakita ang praktikal nga epekto sa Gemini 2.5 Flash Native Audio. Sa sektor sa e-commerce, gilakip sa Shopify kini nga mga kapabilidad sa assistant niini. bata-bata", nga makatabang sa mga retailer sa pagdumala sa ilang mga tindahan ug pagsulbad sa mga pagduhaduha bahin sa negosyo.

Eksklusibo nga sulud - Pag-klik Dinhi  Gi-adjust sa LinkedIn ang AI niini: mga pagbag-o sa privacy, mga rehiyon, ug kung giunsa kini pag-disable

Sumala sa kompanya, daghang mga tiggamit Nakalimot gani sila nga nakigsulti sila sa usa ka AI Human sa pipila ka minuto nga panagsulti, ang tiggamit nagpasalamat pa gani sa bot human sa taas nga pangutana. Kini nga matang sa reaksyon nagsugyot nga ang mga pag-uswag sa pagkanatural ug tono hinungdan nga ang teknolohiya hinayhinay nga nakalimtan.

Sa sektor sa pinansya, ang tighatag og serbisyo Nagkahiusang Pakyawan nga Mortgage (UWM) Gi-integrate niini ang modelo sa iyang "Mia" assistant aron madumala ang mga proseso nga may kalabutan sa mortgage. Uban sa kombinasyon sa Gemini 2.5 ug uban pang internal nga sistema, ang kompanya nag-angkon nga adunay nakaproseso na og sobra sa 14.000 ka mga loan para sa mga kauban niini, nga nagsalig sa mga awtomatikong interaksyon nga nanginahanglan og katukma ug pagsunod sa mga regulasyon.

Sa iyang bahin, ang startup Newo.ai Gigamit niini ang Gemini 2.5 Flash Native Audio pinaagi sa Vertex AI aron mapaandar ang... virtual nga mga receptionistKining mga voice assistant makahimo sa pag-ila sa pangunang mamumulong bisan sa saba nga palibot, pag-ilis og pinulongan sa tunga-tunga sa panag-istoryahanay, ug pagmintinar sa usa ka natural nga rehistro sa tingog nga adunay mga emosyonal nga nuancesnga importante kaayo sa customer service.

Paghubad gikan sa tingog ngadto sa tingog sa tinuod nga panahon: daghang pinulongan ug daghang mga nuances

Usa sa labing makapadani nga mga dugang niini nga bersyon mao ang live nga paghubad gikan sa tingog ngadto sa tingogSa sinugdanan nga gi-integrate sa Google Translate app, ang Gemini 2.5 Flash Native Audio dili lang kay pag-convert sa audio ngadto sa teksto o pagtanyag og fragmented translations, nga naghatag og mas immersive nga kasinatian. dungan nga paghubad mas duol sa interpretasyon sa tawo.

Ang sistema mahimong molihok sa mode sa padayon nga pagpamatiKini nagtugot sa tiggamit sa pagsul-ob og headphone ug pagpamati sa mga nahitabo sa ilang palibot nga gihubad ngadto sa ilang pinulongan, nga dili na kinahanglan nga mohunong o mopindot sa mga buton alang sa matag hugpong sa mga pulong. Kini nga kapilian mahimong mapuslanon kung mobiyahe, motambong sa mga internasyonal nga miting, o sa mga kalihokan diin daghang mga pinulongan ang nalambigit.

Gihatagan usab og konsiderasyon ang mga sitwasyon sa panagsultihanay nga duha ka direksyonPananglitan, kon ang usa ka tawo mosulti og Iningles ug ang usa sa Hindi, ang mga headphone mopatugtog sa hubad sa Iningles sa tinuod nga oras, samtang ang telepono mopatugtog sa hubad sa Hindi kon ang unang tawo mahuman na og sulti. Awtomatikong ibalhin sa sistema ang output language depende kon kinsa ang nagsulti, nga dili na kinahanglan nga usbon sa tiggamit ang mga setting tali sa mga turno.

Usa sa labing importante nga detalye niini nga function mao ang abilidad niini nga mapreserbar ang orihinal nga intonasyon, ritmo, ug tono gikan sa mamumulong. Kini moresulta sa mga hubad nga paminawon nga dili kaayo robotiko ug mas duol sa estilo sa tingog sa mamumulong, nga naghimo niini nga mas sayon ​​sabton ug ang kasinatian mas natural.

Suporta sa pinulongan, awtomatikong pag-ila ug pagsala sa kasaba

Sa natad sa pinulongan, ang Gemini 2.5-based voice translation nagtanyag og suporta para sa kapin sa 70 ka pinulongan ug mga 2.000 ka pares sa paghubadPinaagi sa paghiusa sa kahibalo sa modelo sa kalibutan uban sa mga multilingual ug lumad nga kapabilidad sa audio, masakop niini ang lain-laing mga kombinasyon sa pinulongan, lakip na ang daghan nga dili kanunay gi-prioritize sa ubang mga himan.

Eksklusibo nga sulud - Pag-klik Dinhi  Ang labing kaayo nga mga shortcut sa keyboard sa Grok Code Fast 1 aron mas paspas ang programa

Ang sistema makadumala multilingual nga pagsulod Sulod sa usa ka sesyon, makasabot kini og labaw sa usa ka pinulongan sa samang higayon nga dili na kinahanglan nga mano-mano nga i-adjust sa tiggamit ang mga setting matag higayon nga adunay moilis og pinulongan. Kini nga bahin labi ka mapuslanon sa mga panagsulti diin daghang pinulongan ang natural nga gisagol.

Salamat sa awtomatikong pag-ila sa gisulti nga pinulonganDili kinahanglan nga mahibal-an daan sa tiggamit kung unsang pinulongan ang gigamit sa ilang kaestorya: mailhan sa modelo ang pinulongan ug magsugod sa paghubad dayon, nga makapamenos sa friction ug mga intermediate nga lakang.

Ang Gemini 2.5 Flash Native Audio naglakip usab og mga mekanismo para sa kalig-on batok sa kasabaMakasala kini sa pipila ka tingog sa palibot aron unahon ang pangunang tingog, nga magtugot sa mas komportable nga mga panag-istoryahanay sa mga busy nga kadalanan, mga bukas nga lugar, o mga lugar nga adunay musika sa background.

Pagkaanaa, pag-deploy ug mga palaaboton alang sa Europa

Ang live voice translation base niini nga modelo anaa na karon sa beta nga hugna sa Google Translate app para sa mga Android device sa mga merkado sama sa Estados Unidos, Mexico, ug India. Gikumpirma sa Google nga ang serbisyo anam-anam nga ilusad sa dugang nga mga rehiyon ug plataporma, lakip ang uban pang mga mobile system.

Sa samang higayon, ang integrasyon sa Gemini 2.5 Flash Native Audio sa Gemini Live ug Search Live Gilunsad na kini sa mga tiggamit sa Google app sa Android ug iOS, sugod sa Estados Unidos. Samtang kini nga mga bahin ma-high ug makapasar sa inisyal nga pagsulay ug mga hugna sa pagpahiangay, gilauman nga moabot usab kini sa ubang mga rehiyon. dugang mga nasud, lagmit lakip ang mga merkado sa Europa, diin taas kaayo ang panginahanglan alang sa mga translation ug voice assistant.

Gipahibalo usab sa Google ang tuyo niini nga ilakip kini nga kasinatian sa tingog ug paghubad ngadto sa ubang mga produkto, lakip ang Gemini APISa umaabot nga mga bulan ug tuig, kini magbukas sa pultahan alang sa mga kompanya sa Europa sa mga sektor sama sa turismo, logistik, edukasyon, ug administrasyong publiko aron direktang i-integrate kini nga mga kapabilidad sa ilang kaugalingong mga serbisyo.

Gipresentar sa kompanya kini nga mga bag-ong bahin isip kabahin sa mas lapad nga estratehiya aron matabangan ang mga developer nga paghimo og mga ahente sa panagsulti nga adunay natural nga tingog Sugod karon, pahimuslan ang Gemini 2.5 Flash Native Audio ug uban pang mga modelo sa pamilyang 2.5 Flash ug Pro nga gitumong ngadto sa mas kontrolado nga pagmugna og tingog (pag-adjust sa tono, intensyon, katulin, ug uban pa) ug mga frame sama sa Agentic AI Foundation.

Uban niining mga kalamboan, gipalig-on sa Google ang ideya nga ang tingog mahimong usa sa mga nag-unang agianan sa interaksyon sa artificial intelligence: gikan sa mga assistant nga modumala sa mga tawag sa kustomer ug moproseso sa komplikadong mga operasyon, ngadto sa dungan nga mga sistema sa paghubad nga makapadali sa komunikasyon tali sa mga tawo nga wala magpaambit og pinulongan. Ang Gemini 2.5 Flash Native Audio mao ang sentro niining paningkamot, nga nag-ayo sa pagsabot ug ekspresyon sa tingog. aron mahimong mas mapuslanon ug dili kaayo makabalda ang teknolohiya sa adlaw-adlaw nga kinabuhi, samtang naghulat sa hingpit nga paggamit niini sa Europa ug uban pang mga merkado.

Voice.ai vs ElevenLabs vs Udio: Unsa ang mas maayo?
Giangkon nga artikulo:
Voice.ai vs ElevenLabs vs Udio: Usa ka kompleto nga pagtandi sa mga tingog sa AI