- Gemini 2.5 Flash Native Audio uzlabo balss sarunu dabiskumu, precizitāti un plūstamību, izmantojot Google mākslīgo intelektu.
- Modelis pilnveido izsaukumus uz ārējām funkcijām, labāk seko sarežģītām instrukcijām un labāk saglabā kontekstu garos dialogos.
- Tas ietver reāllaika balss tulkošanu, atbalstot vairāk nekā 70 valodas un 2.000 tulkošanas pārus, saglabājot intonāciju un ritmu.
- Tas jau ir integrēts pakalpojumā Google AI Studio, Vertex AI, Gemini Live un Search Live, un tiek ieviests Google un trešo pušu produktos.
Google ir spēris vēl vienu soli savas mākslīgā intelekta ekosistēmas attīstībā, ieviešot būtisku atjauninājumu. Gemini 2.5 Flash Native AudioModelis, kas izstrādāts, lai saprastu un ģenerētu audio reāllaikā. Šī tehnoloģija ir paredzēta, lai padarītu balss mijiedarbību efektīvāku. tuvāk cilvēciskai sarunaigan ikdienas dzīvē, gan profesionālajā vidē.
Tālu no vienkāršas asistenta atbilžu "balss" piešķiršanas un salīdzinājumā ar citām iespējām balss mākslīgā intelekta salīdzinājumiŠis modelis ir paredzēts uzturēt dabiskus, funkcionālus un kontekstuālus dialogus, pieņemt lēmumus par to, kad meklēt papildu informāciju, un pārvaldīt sarežģītus norādījumus, nepārtraucot sarunas gaituAr šo Google pastiprina savu apņemšanos izmantot balsi kā galveno mijiedarbības līdzekli ar saviem mākslīgā intelekta pakalpojumiem.
Kas ir Gemini 2.5 Flash Native Audio un kur tas tiek izmantots?
Gemini 2.5 Flash Native Audio ir jaunākā Google vietējā audio modeļa versija, kas spēj klausīties, saprast un atbildēt ar balsi reāllaikā. Atšķirībā no iepriekšējām sistēmām, kas koncentrējās tikai uz runas sintēzi, šī programma ir izstrādāta tā, lai vienlaikus darbotos gan ar audio ievadi, gan izvadi, padarot to īpaši piemērotu sarunu asistentiem.
Uzņēmums jau ir integrējis šo versiju vairākās savās galvenajās platformās: Google AI Studio, Vertex AI, Gemini Live un Search LiveTas nozīmē, ka gan attīstītāji, gan uzņēmumi var sākt būvniecību. uzlaboti balss aģenti izmantojot to pašu tehnoloģiju, kas nodrošina Google jaunākās sarunu mākslīgā intelekta iespējas.
Praksē lietotāji pamanīs šīs izmaiņas tādās pieredzēs kā Dvīņi tiešraidē (balss sarunas režīms ar asistentu) vai iekšā Meklēt tiešraidē Google lietotnes mākslīgā intelekta režīmā, kur tiek atskaņotas balss atbildes izteiksmīgāka, skaidrāka un labāk kontekstualizētaTurklāt jūs pat varat lūgt asistentam runāt lēnāk, dabiski pielāgojot sarunas tempu.
Papildus pašam Google šīs iespējas ir pieejamas trešajām pusēm, izmantojot Vertex AI un Gemini APIlai citi uzņēmumi varētu radīt pašnodarbinātie aģenti balss, virtuālie reģistratori vai palīdzības rīki ar tādu pašu balss sarežģītības līmeni.
Precīzākas ārējās funkcijas un labāk novērtēti modeļi

Viena no jomām, kurā Gemini 2.5 Flash Native Audio ir guvusi vislielākos panākumus, ir tās spēja izsaukt ārējās funkcijasVienkārši sakot, modelis tagad ir uzticamāks lēmumu pieņemšanā. kad jums ir nepieciešams konsultēties ar reāllaika pakalpojumiem vai datiemPiemēram, lai iegūtu atjauninātu informāciju, pārbaudītu pasūtījuma statusu vai palaistu automatizētu procesu.
Google norāda, ka šī papildu precizitāte nozīmē mazāk kļūdu darbību aktivizēšanā, tādējādi samazinot neērtas situācijas, kad asistents neveic uzdevumu vai rīkojas priekšlaicīgi. Sistēma spēj ievietot izgūtos datus audio atbildē lietotājam nepamanot nekādus pēkšņus sarunas pārtraukumus.
Lai novērtētu šos sasniegumus, uzņēmums ir veicis modeļa testus, piemēram, ComplexFuncBench Audio, novērtēšanas stends, kas koncentrējas uz daudzpakāpju uzdevumiem ar ierobežojumiem. Šajā scenārijā Gemini 2.5 Flash Native Audio ir sasniedzis aptuveni 71,5% veiksmes rādītājs sarežģītu funkciju izpildē, novietojot to virs iepriekšējām iterācijām un citiem konkurējošiem modeļiem šāda veida lietojumā.
Šī veiktspēja ir īpaši svarīga kontekstos, kuros ir nepieciešamas sarežģītas automatizētas darbplūsmas, piemēram, zvanu centri, tehniskais atbalsts vai darījumu apstrāde (piemēram, finanšu vai administratīvi uzdevumi), kur katrs solis ir atkarīgs no iepriekšējā un ir maza iespēja kļūdām.
Labāka norādījumu izsekošana un saskaņotāki sarunu pavedieni
Vēl viens atjauninājuma fokuss ir uz to, kā modelis interpretēt un ievērot norādījumus ko tā saņem gan no gala lietotājiem, gan izstrādātājiem. Saskaņā ar Google publicētajiem datiem, instrukciju atbilstības līmenis ir samazinājies no 84% līdz 90% ievērošanaTas nozīmē atbildes, kas vairāk atbilst tam, kas faktiski tika lūgts.
Šis lēciens ir galvenais uzdevumos, kur tas ir nepieciešams. sarežģītas instrukcijas, vairāki soļi vai vairāki nosacījumiPiemēram, pieprasot skaidrojumu noteiktā stilā, lūdzot kopsavilkumu ar noteiktiem laika ierobežojumiem vai iestatot darbplūsmu, kas ir atkarīga no vairākiem saistītiem lēmumiem.
Saistībā ar šo Gemini 2.5 Flash Native Audio ir ieguvis iespēju Iegūt iepriekšējo ziņojumu kontekstuVairāku pavērsienu sarunās modelis labāk atceras teikto, lietotāja ieviestās nianses un dialoga gaitā veiktās korekcijas.
Šis sarunu atmiņas uzlabojums samazina nepieciešamību atkārtot vienu un to pašu informāciju atkal un atkal un palīdz padarīt mijiedarbību efektīvāku. vienmērīgāku un mazāk frustrējošuŠāda pieredze ir līdzīgāka sarunai ar cilvēku, kurš turpina tēmu tur, kur pārtrauca, nevis sarunai ar katru atbildi no jauna.
Reālās pasaules lietošanas gadījumi: no e-komercijas līdz finanšu pakalpojumiem
Papildus iekšējiem rādītājiem Google paļaujas uz klientu piemēriem, lai ilustrētu Gemini 2.5 Flash Native Audio praktisko ietekmi. E-komercijas nozarē Shopify ir iekļāvis šīs iespējas savā asistentā. Sidekick", kas palīdz mazumtirgotājiem pārvaldīt savus veikalus un kliedēt šaubas par uzņēmējdarbību.
Pēc uzņēmuma teiktā, daudzi lietotāji Viņi pat aizmirst, ka runā ar mākslīgo intelektu. Pēc dažām minūtēm sarunas lietotājs pat pateicās robotam pēc garas aptaujas. Šāda veida reakcija liek domāt, ka dabiskuma un toņa uzlabojumi liek tehnoloģijām nemanāmi atkāpties otrajā plānā.
Finanšu nozarē pakalpojumu sniedzējs Apvienotā vairumtirdzniecības hipotēka (UWM) Tas ir integrējis modeli savā "Mia" asistentā, lai pārvaldītu ar hipotēku saistītos procesus. Uzņēmums apgalvo, ka, apvienojot Gemini 2.5 un citas iekšējās sistēmas, ir... apstrādāja vairāk nekā 14 000 aizdevumu saviem partneriem, paļaujoties uz automatizētu mijiedarbību, kam nepieciešama precizitāte un atbilstība noteikumiem.
Savukārt jaunuzņēmums Newo.ai Tas darbina Gemini 2.5 Flash Native Audio, izmantojot Vertex AI. virtuālie reģistratoriŠie balss asistenti spēj identificēt galveno runātāju pat trokšņainā vidē, sarunas laikā pārslēgt valodas un saglabāt dabisks balss reģistrs ar emocionālām niansēmkas ir ļoti svarīgi klientu apkalpošanā.
Reāllaika balss tulkošana: vairāk valodu un vairāk nianšu
Viens no pārsteidzošākajiem papildinājumiem šajā versijā ir tiešraides balss tulkojumsSākotnēji integrēta Google Translate lietotnē, Gemini 2.5 Flash Native Audio sniedz vairāk nekā tikai audio konvertēšanu tekstā vai fragmentētu tulkojumu piedāvāšanu, nodrošinot iespaidīgāku pieredzi. sinhronā tulkošana tuvāk cilvēciskajai interpretācijai.
Sistēma var darboties režīmā nepārtraukta klausīšanāsTas ļauj lietotājam uzlikt austiņas un dzirdēt apkārt notiekošo, kas tulkots viņa valodā, bez nepieciešamības apturēt vai nospiest pogas katrai frāzei. Šī opcija var būt noderīga ceļojumos, apmeklējot starptautiskas sanāksmes vai pasākumus, kuros iesaistītas vairākas valodas.
Ir ņemtas vērā arī situācijas, kad divvirzienu sarunaPiemēram, ja viena persona runā angļu valodā, bet otra – hindi valodā, austiņas atskaņo angļu valodas tulkojumu reāllaikā, savukārt tālrunis atskaņo hindi valodas tulkojumu, kad pirmā persona beidz runāt. Sistēma automātiski pārslēdz izvades valodu atkarībā no tā, kurš runā, lietotājam nemainot iestatījumus starp runām.
Viena no svarīgākajām šīs funkcijas detaļām ir tās spēja saglabāt sākotnējo intonāciju, ritmu un toni no runātāja. Tā rezultātā tulkojumi skan mazāk robotiski un ir tuvāki runātāja balss stilam, padarot tos vieglāk saprotamus un pieredzi dabiskāku.
Valodu atbalsts, automātiska noteikšana un trokšņu filtrēšana
Runājot par lingvistisko darbības jomu, uz Gemini 2.5 balstītā balss tulkošana piedāvā atbalstu vairāk nekā 70 valodas un aptuveni 2.000 tulkošanas pāruApvienojot modeļa pasaules zināšanas ar daudzvalodu un vietējās audio iespējām, tas var aptvert plašu valodu kombināciju klāstu, tostarp daudzas, kurām citi rīki ne vienmēr piešķir prioritāti.
Sistēma var pārvaldīt daudzvalodu ieraksts Vienas sesijas laikā tā vienlaikus saprot vairāk nekā vienu valodu, neprasot lietotājam manuāli pielāgot iestatījumus katru reizi, kad kāds pārslēdz valodas. Šī funkcija ir īpaši noderīga sarunās, kurās dabiski sajaucas vairākas valodas.
Pateicoties automātiska runātās valodas noteikšanaLietotājam nav iepriekš jāzina, kādā valodā sazinās viņa sarunu biedrs: modelis identificē valodu un sāk tulkot acumirklī, samazinot berzi un starpposmus.
Gemini 2.5 Flash Native Audio ietver arī mehānismus izturība pret troksniTas spēj filtrēt daļu apkārtējās skaņas, lai piešķirtu prioritāti galvenajai balsij, nodrošinot ērtākas sarunas rosīgās ielās, atklātās telpās vai vietās ar fona mūziku.
Pieejamība, izvietošana un perspektīvas Eiropā
Tiešraides balss tulkojums, kas balstīts uz šo modeli, pašlaik ir pieejams šādā valodā: Google Translate lietotnes beta fāze Android ierīcēm tādos tirgos kā Amerikas Savienotās Valstis, Meksika un Indija. Google ir apstiprinājis, ka pakalpojums tiks pakāpeniski ieviests vairāk reģionu un platformu, ieskaitot citas mobilās sistēmas.
Paralēli notiek Gemini 2.5 Flash Native Audio integrācija Gemini tiešraide un meklēšana tiešraidē Tā tiek ieviesta Google lietotnes lietotājiem operētājsistēmās Android un iOS, sākot ar Amerikas Savienotajām Valstīm. Šīm funkcijām nobriestot un izturot sākotnējās testēšanas un adaptācijas fāzes, paredzams, ka tās nonāks arī citos reģionos. vairāk valstu, iespējams, arī Eiropas tirgos, kur pieprasījums pēc tulkošanas un balss asistentiem ir īpaši liels.
Google ir arī paziņojis par savu nodomu iekļaut šo balss un tulkošanas pieredzi citos produktos, tostarp Gemini APITurpmākajos mēnešos un gados tas pavērtu durvis Eiropas uzņēmumiem tādās nozarēs kā tūrisms, loģistika, izglītība un valsts pārvalde tieši integrēt šīs iespējas savos pakalpojumos.
Uzņēmums piedāvā šīs jaunās funkcijas kā daļu no plašākas stratēģijas, lai izstrādātāji varētu veidot sarunu aģentus ar dabisku balsi Turpmāk, izmantojot gan Gemini 2.5 Flash Native Audio, gan citus 2.5 Flash un Pro saimes modeļus, kas paredzēti kontrolētākai balss ģenerēšanai (tonus, nolūku, ātrumu utt. pielāgošana) un kadriem, piemēram, Aģentu mākslīgā intelekta fonds.
Ar šo uzlabojumu kopumu Google pastiprina ideju, ka balss būs viens no galvenajiem mijiedarbības kanāliem ar mākslīgo intelektu: sākot ar asistentiem, kas apstrādā klientu zvanus un sarežģītas darbības, līdz sinhronās tulkošanas sistēmām, kas atvieglo saziņu starp cilvēkiem, kuriem nav kopīgas valodas. Šī projekta pamatā ir Gemini 2.5 Flash Native Audio, kas precīzi noregulē gan balss izpratni, gan izteiksmi. lai padarītu tehnoloģiju noderīgāku un mazāk traucējošu ikdienas dzīvē, gaidot tās pilnīgu ieviešanu Eiropā un citos tirgos.
Esmu tehnoloģiju entuziasts, kurš savas "geek" intereses ir pārvērtis profesijā. Es esmu pavadījis vairāk nekā 10 gadus no savas dzīves, izmantojot jaunākās tehnoloģijas un tīri ziņkārības vadīts ar visu veidu programmām. Tagad esmu specializējies datortehnoloģijās un videospēlēs. Tas ir tāpēc, ka vairāk nekā 5 gadus esmu rakstījis dažādām tīmekļa vietnēm par tehnoloģijām un videospēlēm, veidojot rakstus, kuru mērķis ir sniegt jums nepieciešamo informāciju ikvienam saprotamā valodā.
Ja jums ir kādi jautājumi, manas zināšanas svārstās no visa, kas saistīts ar Windows operētājsistēmu, kā arī Android mobilajiem tālruņiem. Un mana apņemšanās ir jums, es vienmēr esmu gatavs veltīt dažas minūtes un palīdzēt jums atrisināt visus jautājumus, kas jums varētu rasties šajā interneta pasaulē.
