- Gemini 2.5 Flash Native Audio poboljšava prirodnost, tačnost i fluidnost glasovnih razgovora pomoću Googleove umjetne inteligencije.
- Model poboljšava pozive vanjskih funkcija, bolje prati složene instrukcije i bolje održava kontekst u dugim dijalozima.
- Uključuje prevođenje glasa u realnom vremenu, s podrškom za više od 70 jezika i 2.000 prevodilačkih parova, čuvajući intonaciju i ritam.
- Već je integriran u Google AI Studio, Vertex AI, Gemini Live i Search Live, a implementira se i u Googleove i proizvode trećih strana.
Google je napravio još jedan korak u evoluciji svog ekosistema vještačke inteligencije velikim ažuriranjem... Gemini 2.5 Flash izvorni audioModel dizajniran za razumijevanje i generiranje zvuka u stvarnom vremenu. Ova tehnologija je usmjerena na povećanje efikasnosti glasovnih interakcija. bliže ljudskom razgovorukako u svakodnevnom životu, tako i u profesionalnom okruženju.
Daleko od pukog "davanja glasa" odgovorima asistenta, i u poređenju s drugim opcijama u Poređenja glasovne umjetne inteligencijeOvaj model je dizajniran za održavati prirodne, funkcionalne i kontekstualne dijaloge, donošenje odluka o tome kada tražiti dodatne informacije i upravljanje složenim uputama bez prekidanja toka razgovoraOvim, Google pojačava svoju posvećenost glasu kao primarnom sredstvu interakcije sa svojim AI uslugama.
Šta je Gemini 2.5 Flash Native Audio i gdje se koristi?
Gemini 2.5 Flash Native Audio je najnovija verzija Googleovog modela nativnog zvuka, sposobna za... slušajte, razumite i odgovarajte glasom u realnom vremenu. Za razliku od prethodnih sistema fokusiranih isključivo na sintezu govora, ovaj mehanizam je dizajniran da radi sa zvukom kao ulazom i izlazom istovremeno, što ga čini posebno pogodnim za konverzacijske asistente.
Kompanija je već integrirala ovu verziju u nekoliko svojih ključnih platformi: Google AI Studio, Vertex AI, Gemini Live i Search LiveTo znači da i programeri i kompanije mogu početi graditi napredni glasovni agenti na istoj tehnologiji koja pokreće najnovija Googleova konverzacijska AI iskustva.
U praksi, korisnici će primijetiti ove promjene u iskustvima kao što su Blizanci uživo (režim glasovnog razgovora s asistentom) ili u Pretraži uživo unutar AI načina rada Google aplikacije, gdje se čuju izgovoreni odgovori izražajniji, jasniji i bolje kontekstualiziraniNadalje, možete čak i zamoliti asistenta da govori sporije, prirodno prilagođavajući tempo razgovora.
Pored samog Googlea, ove mogućnosti su dostupne i trećim stranama putem Vertex AI i Gemini APIkako bi druge kompanije mogle kreirati autonomni agenti glas, virtuelni recepcionari ili alati za pomoć sa istim nivoom sofisticiranosti glasa.
Preciznije vanjske funkcije i bolje ocijenjeni modeli

Jedno od područja u kojem je Gemini 2.5 Flash Native Audio ostvario najveći napredak je njegova sposobnost da... pozivanje vanjskih funkcijaJednostavno rečeno, model je sada pouzdaniji kada je u pitanju donošenje odluka. kada trebate konsultovati usluge ili podatke u realnom vremenuNa primjer, za preuzimanje ažuriranih informacija, provjeru statusa narudžbe ili pokretanje automatiziranog procesa.
Google ističe da ova dodatna preciznost rezultira manjim brojem grešaka prilikom pokretanja radnji, smanjujući neugodne situacije u kojima asistent ne uspijeva ili reaguje prerano. Sistem je sposoban umetnite preuzete podatke u audio odgovor bez da korisnik primijeti bilo kakve nagle prekide u razgovoru.
Da bi se izmjerio ovaj napredak, kompanija je podvrgla model testovima kao što su ComplexFuncBench Audio, evaluacijski stol fokusiran na višefazne zadatke s ograničenjima. U ovom scenariju, Gemini 2.5 Flash Native Audio je postigao oko 71,5% stopa uspjeha u izvršavanju složenih funkcija, što ga stavlja iznad prethodnih iteracija i drugih konkurentskih modela u ovoj vrsti upotrebe.
Ova performansa je posebno relevantna u kontekstima gdje su potrebni sofisticirani automatizovani tokovi rada, kao što je pozivni centri, tehnička podrška ili obrada transakcija (na primjer, finansijski ili administrativni zadaci) gdje svaki korak zavisi od prethodnog i ima malo prostora za greške.
Bolje praćenje instrukcija i koherentnije teme razgovora
Drugi fokus ažuriranja je na tome kako model tumačiti i poštovati upute koje prima i od krajnjih korisnika i od programera. Prema podacima koje je objavio Google, stopa usklađenosti s uputama pala je sa 84% na 90% pridržavanjaTo znači odgovore koji su više u skladu sa onim što je zapravo traženo.
Ovaj skok je ključan u zadacima gdje je potreban složene instrukcije, više koraka ili više uslovaNa primjer, kada se traži objašnjenje u određenom stilu, traži se sažetak s određenim vremenskim ograničenjima ili se postavlja tijek rada koji ovisi o nekoliko povezanih odluka.
U vezi s tim, Gemini 2.5 Flash Native Audio je dobio mogućnost da Preuzmi kontekst prethodnih porukaU višestrukim razgovorima, model bolje pamti šta je rečeno, nijanse koje je korisnik uveo i ispravke napravljene tokom dijaloga.
Ovo poboljšanje konverzacijske memorije smanjuje potrebu za ponavljanjem istih informacija iznova i iznova i pomaže u efikasnijoj interakciji. glatkije i manje frustrirajućeIskustvo je bliže razgovoru s osobom koja nastavlja temu tamo gdje je stala, umjesto da se sa svakim odgovorom kreće ispočetka.
Primjeri iz stvarnog svijeta: od e-trgovine do finansijskih usluga
Pored internih metrika, Google se oslanja na primjere kupaca kako bi ilustrovao praktični uticaj Gemini 2.5 Flash Native Audio. U sektoru e-trgovine, Shopify je ove mogućnosti uključio u svog asistenta. Sidekick", što pomaže trgovcima da upravljaju svojim trgovinama i riješe nedoumice u vezi s poslovanjem.
Prema navodima kompanije, mnogi korisnici Čak zaborave da razgovaraju sa vještačkom inteligencijom Nakon nekoliko minuta razgovora, korisnik se čak zahvalio botu nakon dužeg upita. Ovakva vrsta reakcije sugerira da napredak u prirodnosti i tonu suptilno dovodi do toga da tehnologija padne u drugi plan.
U finansijskom sektoru, pružatelj usluga Ujedinjena veleprodajna hipoteka (UWM) Integrirali su model u svog asistenta "Mia" za upravljanje procesima vezanim za hipoteke. Kompanija tvrdi da je kombinacijom Geminija 2.5 i drugih internih sistema... obradili više od 14.000 kredita za svoje partnere, oslanjajući se na automatizirane interakcije koje zahtijevaju tačnost i usklađenost s propisima.
Sa svoje strane, startup Newo.ai Koristi Gemini 2.5 Flash Native Audio putem Vertex AI tehnologije za napajanje. virtuelni recepcioneriOvi glasovni asistenti su sposobni identificirati glavnog govornika čak i u bučnom okruženju, mijenjati jezike usred razgovora i održavati prirodni glasovni registar s emocionalnim nijansamašto je ključno u pružanju usluga korisnicima.
Prevođenje glasa u realnom vremenu: više jezika i više nijansi
Jedan od najupečatljivijih dodataka u ovoj verziji je prevođenje uživo glasom u glasInicijalno integriran u aplikaciju Google Translate, Gemini 2.5 Flash Native Audio ide dalje od pukog pretvaranja zvuka u tekst ili ponude fragmentiranih prijevoda, omogućavajući impresivnije iskustvo. simultano prevođenje bliže ljudskoj interpretaciji.
Sistem može raditi u režimu kontinuirano slušanjeOvo omogućava korisniku da stavi slušalice i čuje šta se dešava oko njega prevedeno na njegov jezik, bez potrebe za pauziranjem ili pritiskanjem dugmadi za svaku frazu. Ova opcija može biti korisna prilikom putovanja, prisustvovanja međunarodnim sastancima ili na događajima na kojima je uključeno više jezika.
Također su razmatrane situacije u kojima dvosmjerni razgovorNa primjer, ako jedna osoba govori na engleskom, a druga na hindskom, slušalice reprodukuju engleski prijevod u realnom vremenu, dok telefon reprodukuje hindski prijevod kada prva osoba završi s govorom. Sistem automatski mijenja jezik izlaza u zavisnosti od toga ko govori, bez potrebe da korisnik mijenja postavke između izgovora.
Jedan od najrelevantnijih detalja ove funkcije je njena sposobnost da sačuvati izvornu intonaciju, ritam i ton od govornika. To rezultira prijevodima koji zvuče manje robotski i bliže su stilu glasa osobe koja govori, što olakšava razumijevanje i čini iskustvo prirodnijim.
Jezička podrška, automatsko otkrivanje i filtriranje šuma
Što se tiče lingvističkog opsega, glasovno prevođenje zasnovano na Gemini 2.5 nudi podršku za preko 70 jezika i oko 2.000 prevodilačkih parovaKombinujući svjetsko znanje modela sa njegovim višejezičnim i izvornim audio mogućnostima, može pokriti širok raspon jezičkih kombinacija, uključujući mnoge koje drugi alati ne daju uvijek prioritet.
Sistem može upravljati višejezični unos U okviru jedne sesije, razumije više jezika istovremeno, bez potrebe da korisnik ručno podešava postavke svaki put kada neko promijeni jezik. Ova funkcija je posebno korisna u razgovorima u kojima se nekoliko jezika prirodno miješa.
Zahvaljujući automatsko prepoznavanje govornog jezikaKorisnik ne mora unaprijed znati kojim jezikom njegov sagovornik komunicira: model identificira jezik i počinje prevoditi u hodu, smanjujući trenje i međukorake.
Gemini 2.5 Flash Native Audio također uključuje mehanizme za otpornost na bukuMože filtrirati neke od ambijentalnih zvukova kako bi dao prioritet glavnom glasu, omogućavajući ugodnije razgovore na prometnim ulicama, otvorenim prostorima ili mjestima s muzikom u pozadini.
Dostupnost, primjena i izgledi za Evropu
Glasovni prijevod uživo zasnovan na ovom modelu trenutno je dostupan u beta faza u aplikaciji Google Prevodilac za Android uređaje na tržištima kao što su Sjedinjene Američke Države, Meksiko i Indija. Google je potvrdio da će se usluga postepeno uvoditi na više regija i platformi, uključujući i druge mobilne sisteme.
Paralelno s tim, integracija Gemini 2.5 Flash Native Audio u Gemini uživo i pretraga uživo Dostupna je korisnicima Google aplikacije na Androidu i iOS-u, počevši od Sjedinjenih Američkih Država. Kako ove funkcije budu sazrijevale i prolazile početne faze testiranja i prilagođavanja, očekuje se da će stići i u druge regije. više zemalja, vjerovatno uključujući i evropska tržišta, gdje je potražnja za prevodilačkim i glasovnim asistentima posebno velika.
Google je također najavio svoju namjeru da ovo iskustvo glasovnog prevođenja i prevođenja uključi u druge proizvode, uključujući Gemini APITokom narednih mjeseci i godina, ovo bi otvorilo vrata evropskim kompanijama u sektorima kao što su turizam, logistika, obrazovanje i javna uprava da direktno integrišu ove kapacitete u vlastite usluge.
Kompanija predstavlja ove nove funkcije kao dio šire strategije koja omogućava programerima da izgradite konverzacijske agente s prirodnim glasom Od sada, koristeći prednosti Gemini 2.5 Flash Native Audio i drugih modela iz 2.5 Flash i Pro porodice usmjerenih ka kontrolisanijem generisanju glasa (podešavanje tona, namjere, brzine itd.) i okvira kao što su... Fondacija Agentic AI.
Ovim skupom poboljšanja, Google pojačava ideju da će glas biti jedan od glavnih kanala interakcije s umjetnom inteligencijom: od asistenata koji obrađuju pozive kupaca i složene operacije, do sistema za simultano prevođenje koji olakšavaju komunikaciju između ljudi koji ne dijele jezik. Gemini 2.5 Flash Native Audio je u srži ovog poduhvata, fino podešavajući i razumijevanje glasa i izražavanje. kako bi tehnologija bila korisnija i manje nametljiva u svakodnevnom životu, dok se čeka njena puna primjena u Evropi i na drugim tržištima.
Ja sam tehnološki entuzijasta koji je svoja "geek" interesovanja pretvorio u profesiju. Proveo sam više od 10 godina svog života koristeći najsavremeniju tehnologiju i petljajući po svim vrstama programa iz čiste radoznalosti. Sada sam se specijalizirao za kompjutersku tehnologiju i video igrice. To je zato što više od 5 godina pišem za razne web stranice o tehnologiji i video igricama, stvarajući članke koji nastoje dati vam potrebne informacije na jeziku koji je svima razumljiv.
Ako imate bilo kakvih pitanja, moje znanje seže od svega vezanog za Windows operativni sistem kao i Android za mobilne telefone. I moja posvećenost je vama, uvijek sam spreman potrošiti nekoliko minuta i pomoći vam da riješite sva pitanja koja imate u ovom svijetu interneta.
