Gemini 2.5 Flash Native Audio: Hekk tinbidel il-vuċi tal-AI ta' Google

L-aħħar aġġornament: 15/12/2025

  • Gemini 2.5 Flash Native Audio jtejjeb in-naturalità, l-eżattezza, u l-fluwidità tal-konversazzjonijiet bil-vuċi bl-AI ta' Google.
  • Il-mudell jirfina s-sejħiet għal funzjonijiet esterni, isegwi struzzjonijiet kumplessi aħjar, u jżomm il-kuntest aħjar fi djalogi twal.
  • Jinkorpora traduzzjoni minn vuċi għal vuċi f'ħin reali, b'appoġġ għal aktar minn 70 lingwa u 2.000 par ta' traduzzjoni, filwaqt li jippreserva l-intonazzjoni u r-ritmu.
  • Diġà huwa integrat f'Google AI Studio, Vertex AI, Gemini Live u Search Live, u qed jiġi skjerat fi prodotti ta' Google u ta' partijiet terzi.

Awdjo Nattiv tal-Flash Gemini 2.5

Google ħadet pass ieħor fl-evoluzzjoni tal-ekosistema tal-intelliġenza artifiċjali tagħha b'aġġornament ewlieni għal Awdjo Nattiv tal-Flash Gemini 2.5Il-mudell iddisinjat biex jifhem u jiġġenera l-awdjo f'ħin reali. Din it-teknoloġija hija mmirata biex tagħmel l-interazzjonijiet bil-vuċi aktar effettivi. eqreb lejn konverżazzjoni umanakemm fil-ħajja ta’ kuljum kif ukoll f’ambjenti professjonali.

'Il bogħod milli sempliċement "tpoġġi vuċi" għar-risposti ta' assistent, u meta mqabbel ma' għażliet oħra fi paraguni tal-vuċi bl-AIDan il-mudell huwa ddisinjat għal biex isostnu djalogi naturali, funzjonali u kuntestwali, tieħu deċiżjonijiet dwar meta tfittex informazzjoni addizzjonali u timmaniġġja struzzjonijiet kumplessi mingħajr ma tkisser il-fluss tal-konverżazzjoniB'dan, Google issaħħaħ l-impenn tagħha lejn il-vuċi bħala l-mezz primarju ta' interazzjoni mas-servizzi tal-IA tagħha.

X'inhu Gemini 2.5 Flash Native Audio u fejn qed jintuża?

Gemini 2.5 Flash Native Audio hija l-aħħar verżjoni tal-mudell tal-awdjo nattiv ta' Google, kapaċi li isma', ifhem, u wieġeb bil-vuċi f'ħin reali. Għall-kuntrarju tas-sistemi preċedenti ffukati biss fuq is-sintesi tad-diskors, dan il-magna hija mfassla biex taħdem bl-awdjo kemm bħala input kif ukoll bħala output simultanjament, u dan jagħmilha adattata b'mod speċjali għal assistenti konversazzjonali.

Il-kumpanija diġà integrat din il-verżjoni f'bosta mill-pjattaformi ewlenin tagħha: Google AI Studio, Vertex AI, Gemini Live u Search LiveDan ifisser li kemm l-iżviluppaturi kif ukoll il-kumpaniji jistgħu jibdew jibnu aġenti tal-vuċi avvanzati fuq l-istess teknoloġija li tagħti s-saħħa lill-aħħar esperjenzi konversazzjonali tal-AI ta' Google.

Fil-prattika, l-utenti se jinnutaw dawn il-bidliet f'esperjenzi bħal Gemini Live (il-modalità ta' konverżazzjoni bil-vuċi mal-assistent) jew fi Fittex Live fil-modalità AI tal-app Google, fejn ir-risposti mitkellma jinstemgħu aktar espressiv, aktar ċar, u kuntestwalizzat aħjarBarra minn hekk, tista' saħansitra titlob lill-assistent biex jitkellem aktar bil-mod, u b'hekk taġġusta l-pass tal-konverżazzjoni b'mod naturali.

Lil hinn minn Google innifsu, dawn il-kapaċitajiet saru disponibbli għal partijiet terzi permezz ta' Vertex AI u l-Gemini APIsabiex kumpaniji oħra jkunu jistgħu joħolqu aġenti awtonomi vuċi, receptionists virtwali jew għodod ta' assistenza bl-istess livell ta' sofistikazzjoni tal-vuċi.

Funzjonijiet esterni aktar preċiżi u mudelli kklassifikati aħjar

L-AI tal-vuċi ta' Google

Wieħed mill-oqsma fejn Gemini 2.5 Flash Native Audio għamel l-aktar progress huwa fil-kapaċità tiegħu li sejħa ta' funzjonijiet esterniFi kliem sempliċi, il-mudell issa huwa aktar affidabbli meta niġu għat-teħid ta' deċiżjonijiet. meta jkollok bżonn tikkonsulta servizzi jew dejta f'ħin realiPereżempju, biex tikseb informazzjoni aġġornata, tiċċekkja l-istatus ta' ordni, jew tniedi proċess awtomatizzat.

Kontenut esklussiv - Ikklikkja Hawnhekk  Kif taċċetta l-editji kollha fil-Google Docs

Google tirrimarka li din il-preċiżjoni miżjuda tissarraf f'inqas żbalji meta jiġu attivati ​​azzjonijiet, u b'hekk jitnaqqsu sitwazzjonijiet skomdi fejn l-assistent jonqos milli jaġixxi jew jaġixxi qabel iż-żmien. Is-sistema hija kapaċi li daħħal id-dejta miksuba fir-rispons awdjo mingħajr ma l-utent jinduna b'xi qtugħ f'daqqa fil-konverżazzjoni.

Biex tkejjel dawn l-avvanzi, il-kumpanija ssottomettiet il-mudell għal testijiet bħal Awdjo ComplexFuncBench, bank ta' evalwazzjoni ffukat fuq kompiti b'ħafna stadji b'restrizzjonijiet. F'dan ix-xenarju, Gemini 2.5 Flash Native Audio kiseb madwar Rata ta' suċċess ta' 71,5% fl-eżekuzzjoni ta' funzjonijiet kumplessi, u jqiegħdu 'l fuq mill-iterazzjonijiet preċedenti u mudelli oħra li jikkompetu f'dan it-tip ta' użu.

Din il-prestazzjoni hija speċjalment rilevanti f'kuntesti fejn huma meħtieġa flussi tax-xogħol awtomatizzati sofistikati, bħal ċentri tat-telefonati, appoġġ tekniku jew ipproċessar ta' tranżazzjonijiet (pereżempju, kompiti finanzjarji jew amministrattivi) fejn kull pass jiddependi fuq dak ta’ qabel u ftit li xejn hemm lok għal żbalji.

Traċċar aħjar tal-istruzzjonijiet u ħjut ta' konverżazzjoni aktar koerenti

Fokus ieħor tal-aġġornament huwa fuq kif il-mudell interpreta u rrispetta l-istruzzjonijiet li jirċievi kemm mill-utenti finali kif ukoll mill-iżviluppaturi. Skont id-dejta maħruġa minn Google, ir-rata ta’ konformità tal-istruzzjonijiet niżlet minn 84% għal 90% aderenzaDan ifisser tweġibiet li huma aktar konformi ma' dak li fil-fatt intalab.

Dan il-qabża hija kruċjali f'kompiti fejn hija meħtieġa struzzjonijiet kumplessi, passi multipli, jew kundizzjonijiet multipliPereżempju, meta titlob spjegazzjoni fi stil speċifiku, titlob sommarju b'ċerti restrizzjonijiet ta' żmien, jew twaqqaf fluss tax-xogħol li jiddependi fuq diversi deċiżjonijiet marbuta.

Relatat ma' dan, Gemini 2.5 Flash Native Audio kiseb il-ħila li Irkupra l-kuntest ta' messaġġi preċedentiF'konversazzjonijiet b'ħafna dawriet, il-mudell jiftakar aħjar x'intqal, in-sfumaturi introdotti mill-utent, u l-korrezzjonijiet magħmula matul id-djalogu.

Dan it-titjib fil-memorja konversazzjonali jnaqqas il-ħtieġa li l-istess informazzjoni tiġi ripetuta darba wara l-oħra u jgħin biex l-interazzjonijiet ikunu aktar effettivi. aktar bla xkiel u inqas frustrantiL-esperjenza hija eqreb lejn li titkellem ma' persuna li tkompli suġġett minn fejn ħalliet, minflok ma tibda mill-bidu b'kull tweġiba.

Każijiet ta' użu fid-dinja reali: mill-kummerċ elettroniku għas-servizzi finanzjarji

Lil hinn mill-metriċi interni, Google qed tiddependi fuq eżempji tal-klijenti biex turi l-impatt prattiku ta' Gemini 2.5 Flash Native Audio. Fis-settur tal-kummerċ elettroniku, Shopify inkorpora dawn il-kapaċitajiet fl-assistent tiegħu. Sidekick", li jgħin lill-bejjiegħa bl-imnut jimmaniġġjaw il-ħwienet tagħhom u jsolvu d-dubji dwar in-negozju.

Kontenut esklussiv - Ikklikkja Hawnhekk  Kif teditja l-għoli tar-ringiela fil-Google Sheets

Skont il-kumpanija, ħafna utenti Saħansitra jinsew li qed jitkellmu ma' AI Wara ftit minuti ta’ konverżazzjoni, l-utent saħansitra rringrazzja lill-bot wara mistoqsija twila. Dan it-tip ta’ reazzjoni jissuġġerixxi li l-avvanzi fin-naturalità u t-ton qed iwasslu biex it-teknoloġija b’mod sottili titpoġġa fuq is-siġġu ta’ wara.

Fis-settur finanzjarju, il-fornitur Ipoteka bl-ingrossa Magħquda (UWM) Hija integrat il-mudell fl-assistent "Mia" tagħha biex timmaniġġja l-proċessi relatati mal-ipoteki. Bil-kombinazzjoni ta' Gemini 2.5 u sistemi interni oħra, il-kumpanija tiddikjara li għandha ipproċessa aktar minn 14.000 self għall-imsieħba tagħha, billi tiddependi fuq interazzjonijiet awtomatizzati li jeħtieġu preċiżjoni u konformità regolatorja.

Min-naħa tagħha, l-istartup Newo.ai Juża Gemini 2.5 Flash Native Audio permezz ta' Vertex AI biex iħaddem is-sistema tiegħu. riċevituri virtwaliDawn l-assistenti tal-vuċi huma kapaċi jidentifikaw il-kelliem ewlieni anke f'ambjenti storbjużi, jibdlu l-lingwi f'nofs konverżazzjoni, u jżommu reġistru tal-vuċi naturali b'sfumaturi emozzjonalili huwa kruċjali fis-servizz tal-klijent.

Traduzzjoni minn vuċi għal vuċi f'ħin reali: aktar lingwi u aktar sfumaturi

Waħda mill-aktar żidiet impressjonanti f'din il-verżjoni hija l- traduzzjoni diretta minn vuċi għal vuċiIntegrat inizjalment fl-app Google Translate, Gemini 2.5 Flash Native Audio jmur lil hinn milli sempliċement jikkonverti l-awdjo għal test jew joffri traduzzjonijiet frammentati, u jippermetti esperjenza aktar immersiva. traduzzjoni simultanja eqreb lejn l-interpretazzjoni umana.

Is-sistema tista' topera fil-modalità ta' smigħ kontinwuDan jippermetti lill-utent jilbes il-headphones u jisma' x'qed jiġri madwaru tradott fil-lingwa tiegħu, mingħajr ma jkollu bżonn jieqaf jew jagħfas buttuni għal kull frażi. Din l-għażla tista' tkun utli meta tivvjaġġa, tattendi laqgħat internazzjonali, jew f'avvenimenti fejn ikunu involuti diversi lingwi.

Ingħatat ukoll kunsiderazzjoni għal sitwazzjonijiet ta’ konverżazzjoni f'żewġ direzzjonijietPereżempju, jekk persuna waħda titkellem bl-Ingliż u l-oħra bil-Ħindi, il-headphones idoqqu t-traduzzjoni bl-Ingliż f'ħin reali, filwaqt li t-telefon idoqq it-traduzzjoni bil-Ħindi ladarba l-ewwel persuna tispiċċa titkellem. Is-sistema awtomatikament tibdel il-lingwa tal-ħruġ skont min ikun qed jitkellem, mingħajr ma l-utent ikollu għalfejn jibdel is-settings bejn dawra u oħra.

Wieħed mid-dettalji l-aktar rilevanti ta’ din il-funzjoni huwa l-abbiltà tagħha li jippreservaw l-intonazzjoni, ir-ritmu u t-ton oriġinali mill-kelliem. Dan jirriżulta fi traduzzjonijiet li jinstemgħu inqas robotiċi u eqreb lejn l-istil tal-vuċi tal-kelliem, u b'hekk ikunu aktar faċli biex jinftiehmu u l-esperjenza aktar naturali.

Appoġġ għall-lingwa, skoperta awtomatika u filtrazzjoni tal-istorbju

F'termini ta' ambitu lingwistiku, it-traduzzjoni tal-vuċi bbażata fuq Gemini 2.5 toffri appoġġ għal aktar minn 70 lingwa u madwar 2.000 par ta’ traduzzjoniBilli jikkombina l-għarfien tad-dinja tal-mudell mal-kapaċitajiet multilingwi u awdjo nattivi tiegħu, jista' jkopri firxa wiesgħa ta' kombinazzjonijiet ta' lingwi, inklużi ħafna li mhux dejjem jiġu prijoritizzati minn għodod oħra.

Kontenut esklussiv - Ikklikkja Hawnhekk  Kif iżżid in-numri Rumani fil-Google Docs

Is-sistema tista' timmaniġġja dħul multilingwi F'sessjoni waħda, jifhem aktar minn lingwa waħda simultanjament mingħajr ma jkun hemm bżonn li l-utent jaġġusta s-settings manwalment kull darba li xi ħadd jibdel il-lingwa. Din il-karatteristika hija speċjalment utli f'konversazzjonijiet fejn diversi lingwi jitħalltu b'mod naturali.

Grazzi għall- skoperta awtomatika tal-lingwa mitkellmaL-utent m'għandux għalfejn ikun jaf minn qabel f'liema lingwa qed jikkomunika l-interlokutur tiegħu: il-mudell jidentifika l-lingwa u jibda jittraduċi immedjatament, u b'hekk inaqqas il-frizzjoni u l-passi intermedji.

Gemini 2.5 Flash Native Audio jinkorpora wkoll mekkaniżmi għal robustezza kontra l-istorbjuHuwa kapaċi jiffiltra ftit mill-ħoss ambjentali biex jipprijoritizza l-vuċi prinċipali, u b'hekk jippermetti konversazzjonijiet aktar komdi fi toroq traffikużi, spazji miftuħa, jew postijiet b'mużika fl-isfond.

Disponibbiltà, skjerament u prospetti għall-Ewropa

It-traduzzjoni diretta bil-vuċi bbażata fuq dan il-mudell bħalissa hija disponibbli f' fażi beta fl-app Google Translate għal apparati Android fi swieq bħall-Istati Uniti, il-Messiku, u l-Indja. Google ikkonfermat li s-servizz se jiġi implimentat progressivament għal aktar reġjuni u pjattaformi, inklużi sistemi mobbli oħra.

B'mod parallel, l-integrazzjoni ta' Gemini 2.5 Flash Native Audio fi Gemini Live u Fittex Live Qed tiġi implimentata għall-utenti tal-app tal-Google fuq Android u iOS, u tibda fl-Istati Uniti. Hekk kif dawn il-karatteristiċi jimmaturaw u jgħaddu mill-fażijiet inizjali ta' ttestjar u adattament, huwa mistenni li jaslu f'reġjuni oħra wkoll. aktar pajjiżi, preżumibbilment inklużi s-swieq Ewropej, fejn id-domanda għal assistenti tat-traduzzjoni u tal-vuċi hija partikolarment għolja.

Google ħabbret ukoll l-intenzjoni tagħha li tinkorpora din l-esperjenza tal-vuċi u tat-traduzzjoni fi prodotti oħra, inkluż API tal-GeminiMatul ix-xhur u s-snin li ġejjin, dan jiftaħ il-bieb għall-kumpaniji Ewropej f'setturi bħat-turiżmu, il-loġistika, l-edukazzjoni, u l-amministrazzjoni pubblika biex jintegraw direttament dawn il-kapaċitajiet fis-servizzi tagħhom stess.

Il-kumpanija qed tippreżenta dawn il-karatteristiċi ġodda bħala parti minn strateġija usa' biex tippermetti lill-iżviluppaturi ibni aġenti konversazzjonali b'vuċi naturali Minn issa 'l quddiem, se nieħdu vantaġġ kemm mill-Gemini 2.5 Flash Native Audio kif ukoll minn mudelli oħra fil-familja 2.5 Flash u Pro mmirati lejn ġenerazzjoni tal-vuċi aktar ikkontrollata (aġġustament tat-ton, l-intenzjoni, il-veloċità, eċċ.) u frejms bħal Fondazzjoni tal-AI Aġentika.

B'dan is-sett ta' titjib, Google isaħħaħ l-idea li l-vuċi se tkun wieħed mill-kanali ewlenin ta' interazzjoni mal-intelliġenza artifiċjali: minn assistenti li jimmaniġġjaw is-sejħiet tal-klijenti u jipproċessaw operazzjonijiet kumplessi, għal sistemi ta' traduzzjoni simultanja li jiffaċilitaw il-komunikazzjoni bejn nies li ma jaqsmux lingwa. Gemini 2.5 Flash Native Audio huwa fil-qalba ta' dan l-isforz, billi jirfina kemm il-fehim kif ukoll l-espressjoni tal-vuċi. biex it-teknoloġija ssir aktar utli u inqas intrużiva fil-ħajja ta’ kuljum, filwaqt li tistenna l-iskjerament sħiħ tagħha fl-Ewropa u fi swieq oħra.

Voice.ai vs ElevenLabs vs Udio: Liema tinstema' aħjar?
Artiklu relatat:
Voice.ai vs ElevenLabs vs Udio: Paragun sħiħ tal-vuċijiet tal-AI