- Gemini 2.5 Flash Native Audio-k ahots-elkarrizketen naturaltasuna, zehaztasuna eta jariakortasuna hobetzen ditu Google-ren AIarekin.
- Ereduak kanpoko funtzioetarako deiak fintzen ditu, argibide konplexuak hobeto jarraitzen ditu eta testuingurua hobeto mantentzen du elkarrizketa luzeetan.
- Ahots-ahots itzulpena denbora errealean barneratzen du, 70 hizkuntza baino gehiago eta 2.000 itzulpen bikote onartzen ditu, intonazioa eta erritmoa mantenduz.
- Google AI Studio, Vertex AI, Gemini Live eta Search Live-n integratuta dago dagoeneko, eta Google-ren eta hirugarrenen produktuetan zabaltzen ari da.
Googlek beste urrats bat eman du bere adimen artifizialaren ekosistemaren bilakaeran eguneratze garrantzitsu batekin. Gemini 2.5 Flash Native AudioDenbora errealean audioa ulertu eta sortzeko diseinatutako eredua. Teknologia hau ahots-interakzioak eraginkorragoak egiteko pentsatuta dago. giza elkarrizketa batera hurbilagobai eguneroko bizitzan, bai ingurune profesionaletan.
Laguntzaile baten erantzunei "ahotsa jartzeaz" urrun, eta beste aukera batzuekin alderatuta ahots-IAren konparaketakModelo hau diseinatuta dago elkarrizketa naturalak, funtzionalak eta testuingurukoak mantentzeko, Informazio gehigarria noiz eskatu erabakitzea eta argibide konplexuak kudeatzea elkarrizketaren fluxua eten gabeHonekin, Google-k ahotsa bere IA zerbitzuekin elkarreragiteko bide nagusi gisa erabiltzeko duen konpromisoa indartzen du.
Zer da Gemini 2.5 Flash Native Audio eta non erabiltzen da?
Gemini 2.5 Flash Native Audio Google-ren audio eredu natiboaren azken bertsioa da, gai dena... entzun, ulertu eta ahots bidez erantzun denbora errealean. Ahots-sintesian soilik zentratzen ziren aurreko sistemek ez bezala, motor hau audioa sarrera eta irteera gisa aldi berean lan egiteko diseinatuta dago, eta, beraz, bereziki egokia da elkarrizketa-laguntzaileentzat.
Konpainiak bertsio hau bere hainbat plataforma nagusitan integratu du dagoeneko: Google AI Studio, Vertex AI, Gemini Live eta Search LiveHorrek esan nahi du bai sustatzaileek bai enpresek eraikitzen has daitezkeela ahots-agente aurreratuak Google-ren azken elkarrizketa-adimenezko esperientziak elikatzen dituen teknologia berarekin.
Praktikan, erabiltzaileek aldaketa hauek nabarituko dituzte esperientzietan, hala nola Gemini Zuzenean (laguntzailearekin ahots bidezko elkarrizketa modua) edo Bilatu Zuzenean Google aplikazioaren AI moduan, non ahozko erantzunak entzuten diren adierazkorragoa, argiagoa eta testuinguruan hobeto kokatuaGainera, laguntzaileari mantsoago hitz egiteko ere eska diezaiokezu, elkarrizketaren erritmoa naturalki egokituz.
Google-z gain, gaitasun hauek hirugarrenen eskura jarri dira honen bidez: Vertex AI eta Gemini APIabeste enpresek sortu ahal izan dezaten eragile autonomoak ahotsa, harreragile birtualak edo laguntza-tresnak ahots-sofistikazio maila berdinarekin.
Kanpoko funtzio zehatzagoak eta balorazio hobea duten modeloak

Gemini 2.5 Flash Native Audio-k aurrerapen handiena egin duen arloetako bat bere gaitasuna da kanpoko funtzioak deituHitz gutxitan esanda, eredua fidagarriagoa da orain erabakiak hartzeko orduan. denbora errealeko zerbitzuak edo datuak kontsultatu behar dituzuneanAdibidez, informazio eguneratua berreskuratzeko, eskaera baten egoera egiaztatzeko edo prozesu automatizatu bat abiarazteko.
Google-k adierazi du zehaztasun gehigarri honek ekintzak abiaraztean akats gutxiago dakartzala, laguntzaileak huts egiten duenean edo goizegi jarduten duenean gertatzen diren egoera deserosoak murriztuz. Sistema gai da... Txertatu berreskuratutako datuak audio erantzunean erabiltzaileak elkarrizketan bat-bateko mozketarik sumatu gabe.
Aurrerapen horiek neurtzeko, enpresak eredua proba hauetan jarri du: ComplexFuncBench Audioa, mugak dituzten etapa anitzeko zereginetan oinarritutako ebaluazio-mahaia. Egoera honetan, Gemini 2.5 Flash Native Audio-k lortu du gutxi gorabehera % 71,5eko arrakasta-tasa funtzio konplexuak gauzatzean, aurreko iterazioen eta erabilera mota honetako beste eredu lehiakideen gainetik kokatuz.
Errendimendu hau bereziki garrantzitsua da lan-fluxu automatizatu sofistikatuak behar diren testuinguruetan, hala nola dei-zentroak, laguntza teknikoa edo transakzioen prozesamendua (adibidez, finantza- edo administrazio-zereginak) non urrats bakoitza aurrekoaren araberakoa den eta akatsetarako tarte gutxi dagoen.
Jarraibideen jarraipen hobea eta elkarrizketa-hari koherenteagoak
Eguneratzearen beste puntu bat eredua nolakoa den da argibideak interpretatu eta errespetatu azken erabiltzaileengandik zein garatzaileengandik jasotzen duena. Googlek argitaratutako datuen arabera, argibideen betetze-tasa % 84tik jaitsi da % 90eko atxikimenduaHorrek esan nahi du benetan eskatutakoarekin bat datozen erantzunak.
Jauzi hau funtsezkoa da beharrezkoa den zereginetan argibide konplexuak, urrats anitz edo baldintza anitzAdibidez, estilo jakin bateko azalpen bat eskatzean, denbora-muga jakin batzuekin laburpen bat eskatzean edo hainbat erabaki loturen araberako lan-fluxu bat ezartzean.
Honekin lotuta, Gemini 2.5 Flash Native Audio-k gaitasuna lortu du Aurreko mezuen testuingurua berreskuratuTxanda anitzeko elkarrizketetan, modeloak hobeto gogoratzen du esandakoa, erabiltzaileak sartutako ñabardurak eta elkarrizketan zehar egindako zuzenketak.
Elkarrizketa-memoriaren hobekuntza honek informazio bera behin eta berriz errepikatzeko beharra murrizten du eta elkarrekintzak eraginkorragoak izan daitezen laguntzen du. leunagoa eta gutxiago frustragarriaEsperientzia antzekoagoa da gai bati utzi zion tokitik jarraitzen dion pertsona batekin hitz egitearekin, erantzun bakoitza hutsetik hastea baino.
Benetako erabilera kasuak: merkataritza elektronikotik finantza zerbitzuetaraino
Barne-neurriez gain, Googlek bezeroen adibideetan oinarritzen da Gemini 2.5 Flash Native Audio-ren eragin praktikoa ilustratzeko. Merkataritza elektronikoaren sektorean, Shopify-k gaitasun horiek bere laguntzailean txertatu ditu. Sidekick", eta horrek txikizkariei beren dendak kudeatzen eta negozioari buruzko zalantzak argitzen laguntzen die.
Enpresaren arabera, erabiltzaile askok IA batekin hitz egiten ari direla ere ahaztu egiten dute Minutu batzuk elkarrizketaren ondoren, erabiltzaileak botoari eskerrak eman zizkion galdera luze baten ondoren. Erreakzio mota honek iradokitzen du naturaltasunean eta tonuan izandako aurrerapenek teknologia bigarren mailan uzten ari direla.
Finantza sektorean, hornitzaileak United Wholesale Mortgage (UWM) Eredua bere "Mia" laguntzailean integratu du hipoteka-prozesuak kudeatzeko. Gemini 2.5 eta beste barne-sistema batzuk konbinatuta, enpresak dioenez... 14.000 mailegu baino gehiago izapidetu dira bere bazkideentzat, zehaztasuna eta araudi-betetzea eskatzen duten interakzio automatizatuetan oinarrituta.
Bere aldetik, startup-ak Newo.ai Gemini 2.5 Flash Native Audio erabiltzen du Vertex AI bidez bere potentzia emateko. harreragile birtualakAhots-laguntzaile hauek gai dira hizlari nagusia identifikatzen ingurune zaratatsuetan ere, hizkuntzak aldatzen elkarrizketaren erdian eta mantentzen... ahots-erregistro naturala, ñabardura emozionalekinbezeroarentzako arreta-zerbitzuan funtsezkoa dena.
Ahots-ahots itzulpena denbora errealean: hizkuntza gehiago eta ñabardura gehiago
Bertsio honetako gehigarririk deigarrienetako bat da ahots-ahots itzulpen zuzenaHasieran Google Translate aplikazioan integratuta, Gemini 2.5 Flash Native Audio-k audioa testu bihurtzeaz edo itzulpen zatikatuak eskaintzeaz haratago doa, esperientzia murgilgarriagoa ahalbidetuz. aldibereko itzulpena gizakiaren interpretaziora hurbilago.
Sistemak moduan funtziona dezake etengabeko entzutea.Horri esker, erabiltzaileak entzungailuak jarri eta inguruan gertatzen dena bere hizkuntzara itzulita entzun dezake, esaldi bakoitzerako pausatu edo botoiak sakatu beharrik gabe. Aukera hau erabilgarria izan daiteke bidaiatzen, nazioarteko bileretara joaten edo hizkuntza anitz dauden ekitaldietan.
Egoerak ere kontuan hartu dira bi norabideko elkarrizketaAdibidez, pertsona batek ingelesez hitz egiten badu eta besteak hindiez, entzungailuek ingelesezko itzulpena denbora errealean erreproduzitzen dute, eta telefonoak, berriz, hindiezko itzulpena erreproduzitzen du lehenengo pertsonak hitz egiten amaitzen duenean. Sistemak automatikoki aldatzen du irteerako hizkuntza, hitz egiten ari denaren arabera, erabiltzaileak txanda bakoitzaren artean ezarpenak aldatu beharrik gabe.
Funtzio honen xehetasun garrantzitsuenetako bat duen gaitasuna da jatorrizko intonazioa, erritmoa eta tonua mantenduz hizlariarengandik. Horri esker, itzulpenak ez dira hain robotikoak eta hizlariaren ahots-estiloaren antzekoagoak dira, ulertzeko errazagoak eta esperientzia naturalagoa bihurtuz.
Hizkuntzaren laguntza, detekzio automatikoa eta zarata iragazketa
Hizkuntza-eremuari dagokionez, Gemini 2.5ean oinarritutako ahots-itzulpenak honako hauek eskaintzen ditu: 70 hizkuntza baino gehiago eta 2.000 itzulpen bikote inguruModeloaren munduaren ezagutza bere gaitasun eleaniztun eta bertako audioarekin konbinatuz, hizkuntza konbinazio ugari har ditzake, beste tresnek lehentasuna ematen ez dieten asko barne.
Sistemak kudeatu dezake sarrera eleaniztuna Saio bakarrean, hizkuntza bat baino gehiago ulertzen ditu aldi berean, erabiltzaileak eskuz ezarpenak doitu beharrik gabe norbaitek hizkuntzaz aldatzen den bakoitzean. Ezaugarri hau bereziki erabilgarria da hainbat hizkuntza modu naturalean nahasten diren elkarrizketetan.
Esker ahozko hizkuntzaren detekzio automatikoaErabiltzaileak ez du aldez aurretik jakin behar zein hizkuntzatan komunikatzen ari den bere solaskidea: ereduak hizkuntza identifikatzen du eta berehala itzultzen hasten da, marruskadura eta tarteko urratsak murriztuz.
Gemini 2.5 Flash Native Audio-k mekanismoak ere baditu barnean zarataren aurkako sendotasunaInguruko soinu batzuk iragazi ditzake ahots nagusiari lehentasuna emateko, kale jendetsuetan, espazio irekietan edo atzeko musika duten lekuetan elkarrizketa erosoagoak ahalbidetuz.
Eskuragarritasuna, hedapena eta etorkizuneko aukerak Europarako
Eredu honetan oinarritutako zuzeneko ahots-itzulpena eskuragarri dago une honetan hemen: Google Translate aplikazioaren beta fasea Android gailuetarako, hala nola Estatu Batuetan, Mexikon eta Indian. Googlek baieztatu du zerbitzua pixkanaka zabalduko dela eskualde eta plataforma gehiago, beste sistema mugikor batzuk barne.
Aldi berean, Gemini 2.5 Flash Native Audio-ren integrazioa Gemini Zuzenean eta Bilatu Zuzenean Google aplikazioaren erabiltzaileentzat zabaltzen ari da Android eta iOS-en, Estatu Batuetan hasita. Ezaugarri hauek helduagoak direnean eta hasierako proba eta egokitzapen faseak gainditzen dituztenean, beste eskualde batzuetara ere iristea espero da. herrialde gehiago, ziurrenik Europako merkatuak barne, non itzulpen eta ahots laguntzaileen eskaera bereziki handia den.
Googlek ahots eta itzulpen esperientzia hau beste produktu batzuetan txertatzeko asmoa ere iragarri du, besteak beste, Gemini APIaDatozen hilabete eta urteetan, horrek ateak irekiko lituzke turismo, logistika, hezkuntza eta administrazio publiko bezalako sektoreetako Europako enpresei gaitasun horiek zuzenean beren zerbitzuetan integratzeko.
Konpainiak ezaugarri berri hauek aurkezten ari da, garatzaileei aukera emateko estrategia zabalago baten barruan. eraiki ahots naturala duten elkarrizketa-agenteak Hemendik aurrera, Gemini 2.5 Flash Native Audio eta 2.5 Flash eta Pro familiako beste modelo batzuk aprobetxatuz, ahots-sorkuntza kontrolatuago batera (tonua, asmoa, abiadura, etab. doitzea) eta markoak bezalakoak erabiliz... Agentic AI Fundazioa.
Hobekuntza multzo honekin, Googlek indartzen du ahotsa adimen artifizialarekin elkarreragiteko kanal nagusietako bat izango den ideia: bezeroen deiak kudeatzen eta eragiketa konplexuak prozesatzen dituzten laguntzaileetatik hasi eta hizkuntza bera partekatzen ez duten pertsonen arteko komunikazioa errazten duten aldibereko itzulpen sistemetaraino. Gemini 2.5 Flash Native Audio da ahalegin honen muina, ahotsaren ulermena eta adierazpena doitzen baitu. teknologia erabilgarriagoa eta eguneroko bizitzan intrusiboagoa izan dadin, Europan eta beste merkatu batzuetan guztiz hedatzeko zain dagoen bitartean.
Bere "geek" interesak lanbide bihurtu dituen teknologia zalea naiz. Nire bizitzako 10 urte baino gehiago eman ditut punta-puntako teknologia erabiltzen eta era guztietako programak moldatzen jakin-min hutsagatik. Orain informatikako teknologian eta bideo-jokoetan espezializatu naiz. Izan ere, 5 urte baino gehiago daramatzadala teknologia eta bideo-jokoen inguruko hainbat webgunetan idazten, denontzat ulergarria den hizkuntza batean behar duzun informazioa eman nahi duten artikuluak sortzen.
Zalantzarik baduzu, nire ezagutza Windows sistema eragilearekin zerikusia duen guztia eta baita telefono mugikorretarako Android ere barne hartzen du. Eta nire konpromisoa zurekin da, beti prest nago minutu batzuk pasatzeko eta Interneteko mundu honetan izan ditzakezun zalantzak konpontzen laguntzeko.
