Gemini 2.5 Flash Native Audio: Svona breytist gervigreindarrödd Google

Síðasta uppfærsla: 15/12/2025

  • Gemini 2.5 Flash Native Audio bætir eðlilegleika, nákvæmni og flæði raddsamræðna með gervigreind Google.
  • Líkanið betrumbætir köll á ytri föll, fylgir flóknum leiðbeiningum betur og viðheldur samhengi betur í löngum samræðum.
  • Það felur í sér rauntíma raddþýðingu, með stuðningi fyrir meira en 70 tungumál og 2.000 þýðingarpör, sem varðveitir tónhæð og takt.
  • Það er þegar samþætt Google AI Studio, Vertex AI, Gemini Live og Search Live og er verið að nota það í vörum Google og þriðja aðila.

Gemini 2.5 Flash Native Audio

Google hefur stigið annað skref í þróun gervigreindarkerfis síns með stórri uppfærslu á ... Gemini 2.5 Flash Native AudioLíkanið er hannað til að skilja og búa til hljóð í rauntíma. Þessi tækni er hönnuð til að gera raddsamskipti skilvirkari. nær mannlegum samræðumbæði í daglegu lífi og í faglegu umhverfi.

Langt frá því að einfaldlega „láta rödd“ í svör aðstoðarmanns, og samanborið við aðra valkosti í samanburður á raddgervigreindÞessi gerð er hönnuð fyrir að viðhalda náttúrulegum, hagnýtum og samhengisbundnum samræðum, að taka ákvarðanir um hvenær leita skuli frekari upplýsinga og stjórna flóknum fyrirmælum án þess að trufla flæði samtalsinsMeð þessu styrkir Google skuldbindingu sína við að nota rödd sem aðal samskiptaleið við gervigreindarþjónustu sína.

Hvað er Gemini 2.5 Flash Native Audio og hvar er það notað?

Gemini 2.5 Flash Native Audio er nýjasta útgáfan af innbyggðu hljóðkerfi Google, sem getur... hlusta, skilja og svara með röddinni í rauntíma. Ólíkt fyrri kerfum sem einblíndu eingöngu á talmyndun, er þessi vél hönnuð til að vinna með hljóð bæði sem inntak og úttak samtímis, sem gerir hana sérstaklega hentuga fyrir samræðuaðstoðarmenn.

Fyrirtækið hefur þegar samþætt þessa útgáfu í nokkra af lykilpöllum sínum: Google AI Studio, Vertex AI, Gemini Live og Search LiveÞetta þýðir að bæði verktakar og fyrirtæki geta hafið byggingu háþróaðir talfulltrúar á sömu tækni og knýr nýjustu samræðuupplifun Google með gervigreind.

Í reynd munu notendur taka eftir þessum breytingum í upplifun eins og Gemini Live (raddsamræðustillingin við aðstoðarmanninn) eða í Leita í beinni innan gervigreindarhams Google appsins, þar sem talað svör hljóma tjáningarfyllra, skýrara og betur sett í samhengiÞar að auki geturðu jafnvel beðið aðstoðarmanninn um að tala hægar og aðlagað hraða samtalsins náttúrulega.

Auk Google sjálfs hafa þessir eiginleikar verið gerðir aðgengilegir þriðja aðila í gegnum Vertex gervigreind og Gemini APIsvo að önnur fyrirtæki geti skapað sjálfstæðir umboðsmenn rödd, sýndarmóttökustarfsmenn eða aðstoðartæki með sama stigi raddtækni.

Nákvæmari ytri aðgerðir og betri einkunnir fyrir gerðir

Rödd gervigreindar frá Google

Eitt af því sem Gemini 2.5 Flash Native Audio hefur náð mestum árangri í er hæfni þess til að... kalla á ytri föllEinfaldlega sagt er líkanið nú áreiðanlegra þegar kemur að því að taka ákvarðanir. þegar þú þarft að leita til þjónustu eða gagna í rauntímaTil dæmis til að sækja uppfærðar upplýsingar, athuga stöðu pöntunar eða ræsa sjálfvirkt ferli.

Einkarétt efni - Smelltu hér  Hvernig á að setja Google teikningu í Google Slides

Google bendir á að þessi aukna nákvæmni þýðir færri villur við aðgerðir, sem dregur úr vandræðalegum aðstæðum þar sem aðstoðarmaðurinn bregst ekki við eða bregst við of snemma. Kerfið er fært um að... setja sótt gögn inn í hljóðsvarið án þess að notandinn taki eftir skyndilegum rofum í samtalinu.

Til að mæla þessar framfarir hefur fyrirtækið prófað líkanið, svo sem ComplexFuncBench Audio, matsbekkur sem einbeitir sér að verkefnum í mörgum stigum með takmörkunum. Í þessu tilfelli hefur Gemini 2.5 Flash Native Audio náð u.þ.b. 71,5% árangurshlutfall í framkvæmd flókinna aðgerða, sem setur það ofar fyrri útgáfum og öðrum samkeppnislíkönum í þessari tegund notkunar.

Þessi frammistaða er sérstaklega mikilvæg í samhengi þar sem þörf er á flóknum sjálfvirkum vinnuflæðum, svo sem símaver, tæknileg aðstoð eða færsluvinnsla (til dæmis fjárhagsleg eða stjórnunarleg verkefni) þar sem hvert skref er háð því fyrra og lítið svigrúm er fyrir mistök.

Betri leiðbeiningaeftirlit og samhangandi samtalsþræðir

Annað sem uppfærslan leggur áherslu á er hvernig líkanið túlka og virða fyrirmælin sem það fær bæði frá notendum og forriturum. Samkvæmt gögnum sem Google hefur gefið út hefur hlutfall þeirra sem fylgja leiðbeiningum lækkað úr 84% í 90% fylgniÞetta þýðir að svör eru meira í samræmi við það sem í raun hefur verið beðið um.

Þetta stökk er lykilatriði í verkefnum þar sem þess er krafist flóknar leiðbeiningar, mörg skref eða mörg skilyrðiTil dæmis þegar óskað er eftir útskýringu í ákveðnum stíl, óskað er eftir samantekt með ákveðnum tímamörkum eða sett er upp vinnuflæði sem er háð nokkrum tengdum ákvörðunum.

Í tengslum við þetta hefur Gemini 2.5 Flash Native Audio fengið möguleikann á að Sækja samhengi fyrri skilaboðaÍ samtölum sem taka margar umferðir man líkanið betur það sem hefur verið sagt, blæbrigðin sem notandinn hefur kynnt og leiðréttingar sem gerðar hafa verið í samræðunum.

Þessi framför í samræðuminni dregur úr þörfinni á að endurtaka sömu upplýsingarnar aftur og aftur og hjálpar til við að gera samskipti árangursríkari. mýkri og minna pirrandiReynslan er líklegri til að tala við einstakling sem tekur upp efni þar sem frá var horfið, frekar en að byrja frá grunni með hverju svari.

Raunveruleg notkunartilvik: frá netverslun til fjármálaþjónustu

Auk innri mælikvarða notar Google dæmi frá viðskiptavinum til að sýna fram á hagnýt áhrif Gemini 2.5 Flash Native Audio. Í netverslunargeiranum hefur Shopify innleitt þessa eiginleika í aðstoðarforritið sitt. Sidekick„, sem hjálpar smásöluaðilum að stjórna verslunum sínum og leysa úr vafa um viðskiptin.

Einkarétt efni - Smelltu hér  LinkedIn aðlagar gervigreind sína: breytingar á friðhelgi einkalífs, svæði og hvernig á að slökkva á henni

Samkvæmt fyrirtækinu, margir notendur Þeir gleyma jafnvel að þeir eru að tala við gervigreind Eftir nokkurra mínútna samtal þakkaði notandinn jafnvel spjallþjóninum eftir langa fyrirspurn. Þessi tegund viðbragða bendir til þess að framfarir í náttúrulegum stíl og tóni séu að valda því að tæknin færist lúmskt til hliðar.

Í fjármálageiranum, veitandinn Sameinað heildsölulán (UWM) Það hefur samþætt líkanið í „Mia“ aðstoðarmann sinn til að stjórna ferlum tengdum húsnæðislánum. Með samsetningu Gemini 2.5 og annarra innri kerfa fullyrðir fyrirtækið að hafa afgreidd meira en 14.000 lán fyrir samstarfsaðila sína, sem treysta á sjálfvirk samskipti sem krefjast nákvæmni og reglufylgni.

Fyrir sitt leyti, sprotafyrirtækið Newo.ai Það notar Gemini 2.5 Flash Native Audio í gegnum Vertex AI til að knýja það áfram. sýndar móttökustarfsmennÞessir raddaðstoðarmenn geta greint aðalræðumanninn jafnvel í hávaðasömu umhverfi, skipt um tungumál mitt í samtali og viðhaldið ... náttúrulegt raddband með tilfinningalegum blæbrigðumsem er lykilatriði í þjónustu við viðskiptavini.

Rauntíma raddþýðing: fleiri tungumál og fleiri blæbrigði

Ein af áberandi viðbótunum í þessari útgáfu er lifandi raddþýðingGemini 2.5 Flash Native Audio, sem upphaflega var samþætt í Google Translate appið, gerir meira en bara að umbreyta hljóði í texta eða bjóða upp á sundurlausar þýðingar, sem gerir upplifunina enn meiri. samtímis þýðing nær túlkun manna.

Kerfið getur starfað í hamnum stöðug hlustunÞetta gerir notandanum kleift að setja á sig heyrnartól og heyra það sem er að gerast í kringum þá þýtt á þeirra tungumál, án þess að þurfa að gera hlé eða ýta á takka fyrir hverja setningu. Þessi valkostur getur verið gagnlegur þegar ferðast er, sótt er alþjóðlega fundi eða á viðburðum þar sem mörg tungumál eru notuð.

Einnig hefur verið tekið tillit til aðstæðna þar sem tvíhliða samtalTil dæmis, ef annar aðilinn talar ensku og hinn hindí, spila heyrnartólin ensku þýðinguna í rauntíma, en síminn spilar hindí þýðinguna þegar sá fyrsti er búinn að tala. Kerfið skiptir sjálfkrafa um tungumál eftir því hver talar, án þess að notandinn þurfi að breyta stillingum milli skipta.

Einn mikilvægasti þátturinn í þessari virkni er hæfni hennar til að varðveita upprunalega tónhæð, takt og tón frá hátalaranum. Þetta leiðir til þýðingar sem hljóma minna vélrænt og líkjast raddstíl hátalarans, sem gerir þær auðveldari að skilja og upplifunina eðlilegri.

Tungumálastuðningur, sjálfvirk uppgötvun og hávaðasíun

Hvað varðar tungumálasvið býður raddþýðing byggð á Gemini 2.5 upp á stuðning við yfir 70 tungumál og um 2.000 þýðingarpörMeð því að sameina þekkingu líkansins á heiminum við fjöltyngda og innfædda hljóðmöguleika þess getur það náð yfir fjölbreytt úrval tungumálasamsetninga, þar á meðal margar sem önnur verkfæri forgangsraða ekki alltaf.

Einkarétt efni - Smelltu hér  Bestu flýtilyklarnir í Grok Code Fast 1 til að forrita hraðar

Kerfið getur stjórnað fjöltyngd færsla Innan einnar lotu skilur það fleiri en eitt tungumál samtímis án þess að notandinn þurfi að stilla stillingarnar handvirkt í hvert skipti sem einhver skiptir um tungumál. Þessi eiginleiki er sérstaklega gagnlegur í samræðum þar sem mörg tungumál blandast náttúrulega saman.

Takk fyrir sjálfvirk greining á töluðu tungumáliNotandinn þarf ekki að vita fyrirfram hvaða tungumál viðmælandi hans notar: líkanið greinir tungumálið og byrjar að þýða samstundis, sem dregur úr núningi og milliskrefum.

Gemini 2.5 Flash Native Audio inniheldur einnig aðferðir fyrir þol gegn hávaðaÞað getur síað út umhverfishljóð til að forgangsraða aðalhljóðinu, sem gerir kleift að eiga þægilegri samræður á annasömum götum, opnum rýmum eða stöðum með bakgrunnstónlist.

Aðgengi, dreifing og horfur fyrir Evrópu

Röddþýðing í beinni byggð á þessari gerð er nú fáanleg í Beta-áfangi í Google Translate appinu fyrir Android tæki á mörkuðum eins og Bandaríkjunum, Mexíkó og Indlandi. Google hefur staðfest að þjónustan verði smám saman innleidd á ... fleiri svæði og vettvangar, þar á meðal önnur farsímakerfi.

Samhliða því var samþætting Gemini 2.5 Flash Native Audio í Gemini Live og leit í beinni Það er verið að færa það út fyrir notendur Google appsins á Android og iOS, byrjandi í Bandaríkjunum. Þegar þessir eiginleikar þroskast og standast fyrstu prófunar- og aðlögunarfasana er búist við að þeir komi einnig til annarra svæða. fleiri lönd, væntanlega þar á meðal evrópskir markaðir, þar sem eftirspurnin eftir þýðingum og raddaðstoðarmönnum er sérstaklega mikil.

Google hefur einnig tilkynnt að það hyggist fella þessa radd- og þýðingarupplifun inn í aðrar vörur, þar á meðal Gemini APIÁ næstu mánuðum og árum myndi þetta opna dyrnar fyrir evrópsk fyrirtæki í geirum eins og ferðaþjónustu, flutningum, menntun og opinberri stjórnsýslu til að samþætta þessa getu beint í sínar eigin þjónustur.

Fyrirtækið kynnir þessa nýju eiginleika sem hluta af víðtækari stefnu til að gera forriturum kleift að smíða samræðuaðila með náttúrulegri rödd Héðan í frá, með því að nýta sér bæði Gemini 2.5 Flash Native Audio og aðrar gerðir í 2.5 Flash og Pro fjölskyldunni sem miða að stýrðari raddframleiðslu (aðlögun tóns, ásetnings, hraða o.s.frv.) og ramma eins og Agentic AI Foundation.

Með þessum úrbótum styrkir Google þá hugmynd að rödd verði ein helsta samskiptaleiðin við gervigreind: allt frá aðstoðarmönnum sem meðhöndla símtöl viðskiptavina og vinna úr flóknum aðgerðum, til samtímis þýðingarkerfa sem auðvelda samskipti milli fólks sem talar ekki sama tungumál. Gemini 2.5 Flash Native Audio er kjarninn í þessari viðleitni og fínstillir bæði raddskilning og tjáningu. til að gera tæknina gagnlegri og minna íþyngjandi í daglegu lífi, á meðan beðið er eftir fullri útfærslu hennar í Evrópu og öðrum mörkuðum.

Voice.ai vs ElevenLabs vs Udio: Hvor hljómar betur?
Tengd grein:
Voice.ai vs ElevenLabs vs Udio: Heildarsamanburður á gervigreindarröddum