- „Gemini 2.5 Flash Native Audio“ pagerina balso pokalbių natūralumą, tikslumą ir sklandumą, naudodama „Google“ dirbtinį intelektą.
- Modelis patikslina išorinių funkcijų iškvietimus, geriau seka sudėtingas instrukcijas ir geriau išlaiko kontekstą ilguose dialoguose.
- Jame yra vertimas balsu realiuoju laiku, palaikoma daugiau nei 70 kalbų ir 2.000 vertimo porų, išsaugant intonaciją ir ritmą.
- Jis jau integruotas į „Google AI Studio“, „Vertex AI“, „Gemini Live“ ir „Search Live“ ir yra diegiamas „Google“ ir trečiųjų šalių produktuose.
„Google“ žengė dar vieną žingsnį savo dirbtinio intelekto ekosistemos evoliucijoje, išleisdama svarbų atnaujinimą. „Gemini 2.5 Flash“ gimtoji garso sistemaModelis, skirtas suprasti ir generuoti garsą realiuoju laiku. Ši technologija skirta efektyvesnei balso sąveikai. arčiau žmogiško pokalbiotiek kasdieniame gyvenime, tiek profesinėje aplinkoje.
Toli gražu ne tik „įgarsinti“ asistento atsakymus, bet ir palyginti su kitomis parinktimis balso DI palyginimaiŠis modelis skirtas palaikyti natūralius, funkcionalius ir kontekstualius dialogus, priimti sprendimus, kada ieškoti papildomos informacijos, ir valdyti sudėtingas instrukcijas nenutraukiant pokalbio eigosTaip „Google“ sustiprina savo įsipareigojimą naudoti balsą kaip pagrindinę sąveikos su dirbtinio intelekto paslaugomis priemonę.
Kas yra „Gemini 2.5 Flash Native Audio“ ir kur jis naudojamas?
„Gemini 2.5 Flash Native Audio“ yra naujausia „Google“ gimtojo garso modelio versija, galinti klausytis, suprasti ir reaguoti balsu realiuoju laiku. Skirtingai nuo ankstesnių sistemų, kurios buvo skirtos tik kalbos sintezei, šis variklis sukurtas taip, kad vienu metu veiktų su garsu kaip įvestimi ir išvestimi, todėl jis ypač tinka pokalbių asistentams.
Bendrovė jau integravo šią versiją į kelias pagrindines savo platformas: „Google AI Studio“, „Vertex AI“, „Gemini Live“ ir „Search Live“Tai reiškia, kad tiek vystytojai, tiek įmonės gali pradėti statyti pažangūs balso agentai naudojant tą pačią technologiją, kuri palaiko naujausias „Google“ pokalbių dirbtinio intelekto patirtis.
Praktiškai vartotojai pastebės šiuos pokyčius tokiose patirtyse kaip Dvyniai gyvai (balso pokalbio su asistentu režimas) arba Ieškoti tiesiogiai „Google“ programėlės dirbtinio intelekto režime, kur skamba balsiniai atsakymai išraiškingesnis, aiškesnis ir geriau kontekstualizuotasBe to, galite netgi paprašyti asistento kalbėti lėčiau, natūraliai koreguodami pokalbio tempą.
Be pačios „Google“, šios galimybės buvo prieinamos trečiosioms šalims per „Vertex AI“ ir „Gemini“ APIkad kitos įmonės galėtų kurti autonominiai agentai balsu, virtualūs registratoriai arba pagalbos įrankiai su tokiu pat sudėtingumo lygiu.
Tikslesnės išorinės funkcijos ir geriau įvertinti modeliai

Viena iš sričių, kurioje „Gemini 2.5 Flash Native Audio“ padarė didžiausią pažangą, yra jos gebėjimas iškviesti išorines funkcijasPaprastai tariant, modelis dabar yra patikimesnis priimant sprendimus. kai reikia peržiūrėti realiojo laiko paslaugas ar duomenisPavyzdžiui, norint gauti atnaujintą informaciją, patikrinti užsakymo būseną arba paleisti automatizuotą procesą.
„Google“ atkreipia dėmesį, kad šis papildomas tikslumas reiškia mažiau klaidų inicijuojant veiksmus, taip sumažinant nepatogių situacijų, kai asistentas nesugeba sureaguoti arba sureaguoja per anksti. Sistema gali įterpti gautus duomenis į garso atsakymą vartotojui nepastebint jokių staigių pokalbio nutraukimų.
Norėdama įvertinti šią pažangą, bendrovė atliko tokius modelio bandymus kaip „ComplexFuncBench“ garso įrašai, vertinimo stendas, skirtas daugiapakopėms užduotims su apribojimais. Šiame scenarijuje „Gemini 2.5 Flash Native Audio“ pasiekė maždaug 71,5 % sėkmės rodiklis vykdant sudėtingas funkcijas, iškeldamas jį aukščiau ankstesnių iteracijų ir kitų konkuruojančių modelių, skirtų tokio tipo naudojimui.
Šis našumas ypač aktualus tais atvejais, kai reikalingi sudėtingi automatizuoti darbo eigos procesai, pvz. skambučių centrai, techninė pagalba arba operacijų apdorojimas (pavyzdžiui, finansinės ar administracinės užduotys), kur kiekvienas žingsnis priklauso nuo ankstesnio ir yra mažai vietos klaidoms.
Geresnis instrukcijų sekimas ir nuoseklesnės pokalbių temos
Kitas atnaujinimo akcentas yra tai, kaip modelis interpretuoti ir laikytis nurodymų kurią gauna tiek iš galutinių vartotojų, tiek iš kūrėjų. Remiantis „Google“ paskelbtais duomenimis, instrukcijų laikymosi rodiklis sumažėjo nuo 84 % iki 90 % laikymasisTai reiškia atsakymus, kurie labiau atitinka tai, ko iš tikrųjų buvo prašoma.
Šis šuolis yra esminis atliekant užduotis, kuriose jo reikia sudėtingos instrukcijos, keli žingsniai arba kelios sąlygosPavyzdžiui, prašant paaiškinimo konkrečiu stiliumi, santraukos su tam tikrais laiko apribojimais arba darbo eigos, kuri priklauso nuo kelių susietų sprendimų, nustatymo.
Dėl to „Gemini 2.5 Flash Native Audio“ įgijo galimybę Atkurti ankstesnių pranešimų kontekstąDaugiapakopiuose pokalbiuose modelis geriau prisimena, kas buvo pasakyta, vartotojo įvestus niuansus ir viso dialogo metu atliktas pataisas.
Šis pokalbių atminties pagerėjimas sumažina poreikį kartoti tą pačią informaciją vėl ir vėl ir padeda efektyviau bendrauti. sklandesnis ir mažiau varginantisŠi patirtis artimesnė pokalbiui su žmogumi, kuris tęsia temą ten, kur baigė, o ne pradeda nuo nulio su kiekvienu atsakymu.
Realaus pasaulio naudojimo atvejai: nuo elektroninės prekybos iki finansinių paslaugų
Be vidinių rodiklių, „Google“ remiasi klientų pavyzdžiais, iliustruojančiais praktinį „Gemini 2.5 Flash Native Audio“ poveikį. Elektroninės prekybos sektoriuje „Shopify“ įtraukė šias funkcijas į savo asistentą. Sidekick„, kuri padeda mažmenininkams valdyti savo parduotuves ir išsklaidyti abejones dėl verslo.
Pasak bendrovės, daugelis vartotojų Jie net pamiršta, kad kalbasi su dirbtiniu intelektu Po kelių minučių pokalbio vartotojas netgi padėkojo robotui po ilgo tyrimo. Tokia reakcija rodo, kad natūralumo ir tono pažanga verčia technologijas nepastebimai atsidurti antrame plane.
Finansų sektoriuje paslaugų teikėjas Jungtinė didmeninė hipoteka (UWM) Ji integravo šį modelį į savo „Mia“ asistentą, skirtą su hipoteka susijusiems procesams valdyti. Bendrovė teigia, kad, derindama „Gemini 2.5“ ir kitas vidines sistemas, ji... apdorojo daugiau nei 14 000 paskolų savo partneriams, pasikliaudamas automatizuota sąveika, kuriai reikalingas tikslumas ir atitiktis reglamentams.
Savo ruožtu, startuolis Newo.ai Jis maitinamas „Gemini 2.5 Flash Native Audio“ per „Vertex AI“. virtualūs registratūros darbuotojaiŠie balso asistentai geba atpažinti pagrindinį kalbėtoją net triukšmingoje aplinkoje, perjungti kalbas pokalbio metu ir palaikyti ryšį. natūralus balso registras su emociniais niuansaiskas yra labai svarbu aptarnaujant klientus.
Vertimas balsu realiuoju laiku: daugiau kalbų ir daugiau niuansų
Vienas ryškiausių šios versijos papildymų yra tiesioginis balsinis vertimasIš pradžių integruota į „Google Translate“ programėlę, „Gemini 2.5 Flash Native Audio“ neapsiriboja vien garso konvertavimu į tekstą ar fragmentiškų vertimų teikimu, suteikdama įtraukiančią patirtį. sinchroninis vertimas arčiau žmogiškosios interpretacijos.
Sistema gali veikti režimu nuolatinis klausymasisTai leidžia vartotojui užsidėti ausines ir girdėti, kas vyksta aplinkui, išverstą į jo kalbą, nereikia pristabdyti ar paspausti mygtukų kiekvienai frazei. Ši parinktis gali būti naudinga keliaujant, dalyvaujant tarptautiniuose susitikimuose ar renginiuose, kuriuose kalbama keliomis kalbomis.
Taip pat buvo atsižvelgta į situacijas, kai dvipusis pokalbisPavyzdžiui, jei vienas asmuo kalba angliškai, o kitas – hindi kalba, ausinės realiuoju laiku atkuria vertimą į anglų kalbą, o telefonas atkuria vertimą į hindi kalbą, kai pirmasis asmuo baigia kalbėti. Sistema automatiškai perjungia išvesties kalbą, atsižvelgdama į tai, kas kalba, vartotojui nereikės keisti nustatymų tarp pokalbių.
Viena iš svarbiausių šios funkcijos detalių yra jos gebėjimas išsaugoti originalią intonaciją, ritmą ir toną iš kalbėtojo. Dėl to vertimai skamba mažiau robotiškai ir artimesni kalbėtojo balso stiliui, todėl juos lengviau suprasti, o patirtis – natūralesnė.
Kalbų palaikymas, automatinis aptikimas ir triukšmo filtravimas
Kalbant apie lingvistinę apimtį, „Gemini 2.5“ pagrindu sukurtas balso vertimas siūlo palaikymą daugiau nei 70 kalbų ir apie 2.000 vertimų porųDerindamas modelio žinias apie pasaulį su daugiakalbystės ir gimtosios kalbos garso galimybėmis, jis gali aprėpti platų kalbų derinių spektrą, įskaitant daugelį tų, kurioms kiti įrankiai ne visada teikia pirmenybę.
Sistema gali valdyti daugiakalbis įrašas Vieno seanso metu programa supranta daugiau nei vieną kalbą vienu metu, nereikalaujant, kad vartotojas kaskart perjungdamas kalbą rankiniu būdu koreguotų nustatymų. Ši funkcija ypač naudinga pokalbiuose, kuriuose natūraliai susimaišo kelios kalbos.
Ačiū automatinis šnekamosios kalbos aptikimasVartotojui nereikia iš anksto žinoti, kokia kalba bendrauja jo pašnekovas: modelis atpažįsta kalbą ir pradeda versti operatyviai, sumažindamas trintį ir tarpinius žingsnius.
„Gemini 2.5 Flash Native Audio“ taip pat turi mechanizmus, skirtus atsparumas triukšmuiJis gali filtruoti kai kuriuos aplinkos garsus, kad būtų teikiama pirmenybė pagrindiniam balsui, todėl pokalbiai judriose gatvėse, atvirose erdvėse ar vietose su fonine muzika yra patogesni.
Prieinamumas, diegimas ir perspektyvos Europoje
Šiuo modeliu pagrįstas tiesioginis balso vertimas šiuo metu galimas „Google“ vertėjo programėlės beta versijos etapas „Android“ įrenginiams tokiose rinkose kaip Jungtinės Valstijos, Meksika ir Indija. „Google“ patvirtino, kad paslauga bus palaipsniui diegiama daugiau regionų ir platformų, įskaitant kitas mobiliąsias sistemas.
Lygiagrečiai, „Gemini 2.5 Flash Native Audio“ integracija į Dvyniai tiesiogiai ir ieškokite tiesiogiai Ji pradedama diegti „Google“ programėlės naudotojams, naudojantiems „Android“ ir „iOS“, pradedant Jungtinėse Amerikos Valstijose. Šioms funkcijoms tobulėjant ir praėjus pradinius testavimo bei adaptacijos etapus, tikimasi, kad jos pasieks ir kitus regionus. daugiau šalių, tikriausiai įskaitant Europos rinkas, kur vertimo ir balso asistentų paklausa yra ypač didelė.
„Google“ taip pat paskelbė apie savo ketinimą integruoti šią balso ir vertimo patirtį į kitus produktus, įskaitant Gemini APIPer ateinančius mėnesius ir metus tai atvertų duris Europos įmonėms tokiuose sektoriuose kaip turizmas, logistika, švietimas ir viešasis administravimas tiesiogiai integruoti šiuos pajėgumus į savo paslaugas.
Bendrovė pristato šias naujas funkcijas kaip platesnės strategijos, kuria siekiama suteikti kūrėjams galimybę, dalį. kurti pokalbių agentus natūraliu balsu Nuo šiol, pasinaudojant tiek „Gemini 2.5 Flash Native Audio“, tiek kitais „2.5 Flash“ ir „Pro“ šeimos modeliais, skirtais labiau kontroliuojamam balso generavimui (tono, ketinimų, greičio ir kt. reguliavimui) ir tokiems kadrams kaip Agentinio dirbtinio intelekto fondas.
Šiuo patobulinimų rinkiniu „Google“ sustiprina idėją, kad balsas bus vienas pagrindinių sąveikos su dirbtiniu intelektu kanalų: nuo asistentų, kurie tvarko klientų skambučius ir atlieka sudėtingas operacijas, iki sinchroninio vertimo sistemų, kurios palengvina bendravimą tarp žmonių, kurie nekalba ta pačia kalba. „Gemini 2.5 Flash Native Audio“ yra šio siekio pagrindas, tiksliai derinantis tiek balso supratimą, tiek išraišką. kad technologija taptų naudingesnė ir mažiau įkyri kasdieniame gyvenime, laukiant jos visiško diegimo Europoje ir kitose rinkose.
Esu technologijų entuziastas, savo „geek“ pomėgius pavertęs profesija. Daugiau nei 10 savo gyvenimo metų praleidau naudodamas pažangiausias technologijas ir iš gryno smalsumo kūriau visas programas. Dabar aš specializuojasi kompiuterinėse technologijose ir vaizdo žaidimuose. Taip yra todėl, kad daugiau nei 5 metus rašau įvairioms interneto svetainėms apie technologijas ir vaizdo žaidimus, kurdamas straipsnius, kuriuose noriu pateikti jums reikalingą informaciją visiems suprantama kalba.
Jei turite klausimų, mano žinios svyruoja nuo visko, kas susiję su Windows operacine sistema, taip pat su Android mobiliesiems telefonams. Ir aš įsipareigoju jums, aš visada pasiruošęs skirti kelias minutes ir padėti jums išspręsti visus klausimus, kurie jums gali kilti šiame interneto pasaulyje.
