- Gemini 2.5 Flash Native Audio millora la naturalitat, precisió i fluïdesa en les converses per veu amb la IA de Google.
- El model afina les trucades a funcions externes, segueix millor instruccions complexes i manté millor el context en diàlegs llargs.
- Incorpora traducció de veu a veu en temps real, amb suport per a més de 70 idiomes i 2.000 parells de traducció, preservant entonació i ritme.
- Ja s'integra a Google AI Studio, Vertex AI, Gemini Live i Search Live, i s'està desplegant a productes de Google i de tercers.
Google ha fet un nou pas en l'evolució del seu ecosistema d'intel·ligència artificial amb una actualització profunda de Gemini 2.5 Flash Native Audio, el model pensat per comprendre i generar àudio en temps real. Aquesta tecnologia està orientada a fer que les interaccions per veu resultin més properes a una conversa humana, tant en el dia a dia com en entorns professionals.
Lluny de limitar-se a «posar veu» a les respostes d'un assistent, i davant d'altres opcions a comparatives de voice AI, aquest model està dissenyat per sostenir diàlegs naturals, funcionals i contextuals, prendre decisions sobre quan cercar informació addicional i gestionar instruccions complexes sense trencar el flux de la xerrada. Amb això, Google reforça la seva aposta per la veu com a via principal d'interacció amb els serveis d'IA.
Què és Gemini 2.5 Flash Native Audio i on s'està usant
Gemini 2.5 Flash Native Audio és la versió més recent del model d'àudio nadiu de Google, capaç de escoltar, entendre i respondre per veu en temps real. A diferència de sistemes anteriors centrats només en sintetitzar veu, aquest motor està preparat per treballar amb àudio com a entrada i sortida de forma simultània, cosa que el fa especialment adequat per a assistents conversacionals.
La companyia ja ha integrat aquesta versió a diverses de les seves plataformes clau: Google AI Studio, Vertex AI, Gemini Live i Search Live. Això vol dir que tant desenvolupadors com empreses poden començar a construir agents de veu avançats sobre la mateixa tecnologia que impulsa les experiències més recents de Google a IA conversacional.
A la pràctica, els usuaris notaran aquests canvis en experiències com Bessons en viu (el mode de conversa per veu amb l'assistent) oa Cerca en directe dins del mode d'IA de l'app de Google, on les respostes parlades sonen més expressives, més clares i millor contextualitzades. A més, es pot demanar fins i tot que l'assistent parli més a poc a poc, ajustant el ritme de la conversa de forma natural.
Més enllà del propi Google, aquestes capacitats s'han posat a disposició de tercers a través de Vertex AI i l'API de Gemini, de manera que altres companyies poden crear agents autònoms de veu, recepcionistes virtuals o eines d'assistència amb el mateix nivell de sofisticació a la veu.
Funcions externes més precises i models més ben avaluats

Un dels punts on més ha avançat Gemini 2.5 Flash Native Audio és en la seva capacitat de trucar a funcions externes. En termes senzills, el model ara és més fiable a l'hora de decidir quan necessiteu consultar serveis o dades en temps real, per exemple, per recuperar informació actualitzada, comprovar l'estat d'una comanda o llançar un procés automatitzat.
Google assenyala que aquesta precisió addicional es tradueix en menys errors a l'hora de disparar accions, cosa que redueix situacions incòmodes en què l'assistent es queda curt o s'avança innecessàriament. El sistema és capaç de inserir les dades recuperades a la resposta d'àudio sense que l'usuari percebi talls bruscos a la conversa.
Per mesurar aquests avenços, l'empresa ha sotmès el model a proves com ComplexFuncBench Àudio, un banc davaluació centrat en tasques multietapa amb restriccions. En aquest escenari, Gemini 2.5 Flash Native Audio ha aconseguit al voltant d'un 71,5% d'èxit en l'execució de funcions complexes, situant-se per sobre d'iteracions anteriors i altres models competidors en aquest tipus d'ús.
Aquest rendiment resulta especialment rellevant en contextos on es necessiten fluxos automatitzats sofisticats, com ara centres datenció telefònica, suport tècnic o tramitació doperacions (per exemple, gestions financeres o administratives) en què cada pas depèn de l'anterior i hi ha poc marge d'error.
Millor seguiment d´instruccions i fils de conversa més coherents
Un altre dels focus de l'actualització és com el model interpreta i respecta les instruccions que rep, tant per part d'usuaris finals com de desenvolupadors. Segons les dades que ha fet públiques Google, la taxa de compliment d'instruccions ha passat d'un 84% a un 90% d'adherència, cosa que suposa respostes més alineades amb el que realment s'ha demanat.
Aquest salt és clau en feines on s'exigeixen instruccions complexes, diversos passos o múltiples condicionants. Per exemple, a l'hora de demanar una explicació amb un estil concret, sol·licitar un resum amb determinades restriccions de temps o configurar un flux de treball que depengui de diverses decisions encadenades.
Associat a això, Gemini 2.5 Flash Native Audio ha guanyat capacitat per recuperar el context de missatges anteriors. En converses de diversos torns, el model recorda millor què s'ha dit, els matisos que l'usuari ha introduït i les correccions realitzades al llarg del diàleg.
Aquesta millora en la memòria conversacional redueix la necessitat de repetir una vegada i una altra la mateixa informació i ajuda que les interaccions siguin més fluides i menys frustrants. L'experiència s'acosta més a parlar amb una persona que reprèn un tema on es va quedar en lloc de començar de zero a cada resposta.
Casos dús reals: de comerç electrònic a serveis financers
Més enllà de les mètriques internes, Google està recolzant-se en exemples de clients per il·lustrar l'impacte pràctic de Gemini 2.5 Flash Native Audio. Al sector del comerç electrònic, Shopify ha incorporat aquestes capacitats al seu assistent » company«, que ajuda els comerciants a gestionar les botigues i resoldre dubtes sobre el negoci.
Segons la companyia, molts usuaris arriben a oblidar que estan parlant amb una IA al cap d'uns minuts de conversa, fins al punt de donar les gràcies al bot després d'una llarga consulta. Aquest tipus de reacció suggereix que els avenços en naturalitat i to fan que la tecnologia passi discretament a segon pla.
En l'àmbit financer, el proveïdor United Wholesale Mortgage (UWM) ha integrat el model al seu assistent Mia per gestionar processos relacionats amb hipoteques. Amb la combinació de Gemini 2.5 i altres sistemes interns, l'empresa afirma haver-hi tramitat més de 14.000 préstecs per als seus socis, recolzant-se en interaccions automatitzades que requereixen precisió i compliment de normativa.
Per la seva banda, la startup Newo.ai utilitza Gemini 2.5 Flash Native Audio a través de Vertex AI per potenciar els seus recepcionistes virtuals. Aquests assistents de veu són capaços didentificar el parlant principal fins i tot en entorns sorollosos, canviar didioma a meitat de conversa i mantenir un registre de veu natural i amb matisos emocionals, cosa que resulta crucial en l'atenció al públic.
Traducció de veu a veu en temps real: més idiomes i més matisos
Una de les incorporacions més destacades d'aquesta versió és la traducció de veu a veu en viu, integrada inicialment a l'app de Google Translate. En lloc de limitar-se a passar àudio a text oa oferir traducció per fragments, Gemini 2.5 Flash Native Audio permet una experiència de traducció simultània més propera a la interpretació humana.
El sistema pot funcionar en mode de escolta contínua, de manera que lusuari es col·loca uns auriculars i escolta el que passa al seu voltant traduït al seu idioma, sense necessitat de pausar o prémer botons per a cada frase. Aquesta opció pot ser útil en viatges, reunions internacionals o esdeveniments en què hi hagi diversos idiomes en joc.
També s'ha pensat en situacions de conversa bidireccional. Per exemple, si una persona parla en anglès i una altra en hindi, els auriculars reprodueixen la traducció a l'anglès en temps real, mentre que el telèfon emet la traducció a l'hindi quan el primer acaba de parlar. El sistema alterna automàticament l'idioma de sortida segons qui intervé, sense que l'usuari hagi de canviar els paràmetres entre torns.
Un dels detalls més rellevants d'aquesta funció és la capacitat de preservar l'entonació, el ritme i el to original del parlant. Això dóna lloc a traduccions que sonen menys robòtiques i més properes a l'estil de veu de la persona que parla, cosa que facilita la comprensió i fa l'experiència més natural.
Cobertura d'idiomes, detecció automàtica i filtratge de soroll
Pel que fa a l'abast lingüístic, la traducció de veu basada en Gemini 2.5 ofereix suport per a més de 70 idiomes i uns 2.000 parells de traducciócombinant el coneixement del món del model amb les seves capacitats multilingües i d'àudio nadiu. Això permet donar cobertura a una gran quantitat de combinacions de llengua, incloses moltes que no sempre es prioritzen en altres eines.
El sistema pot gestionar entrada multilingüe dins d'una mateixa sessió, és a dir, entén simultàniament més d'un idioma sense obligar l'usuari a ajustar manualment la configuració cada cop que algú canvia de llengua. Aquesta característica és especialment útil en converses on es barregen diversos idiomes amb naturalitat.
Gràcies a la detecció automàtica de l'idioma parlat, l'usuari no necessita saber per endavant en quin idioma s'està comunicant el vostre interlocutor: el model identifica la llengua i comença a traduir sobre la marxa, reduint friccions i passos intermedis.
Gemini 2.5 Flash Native Audio també incorpora mecanismes de robustesa davant del soroll. És capaç de filtrar part del so ambient per prioritzar la veu principal, cosa que permet mantenir converses més còmodes en carrers concorreguts, espais oberts o llocs amb música de fons.
Disponibilitat, desplegament i perspectives per a Europa
La traducció de veu en viu basada en aquest model es troba actualment disponible a fase beta a l'app de Google Translate per a dispositius Android en mercats com els Estats Units, Mèxic i l'Índia. Google ha confirmat que el servei s'anirà estenent progressivament a més regions i plataformes, incloent altres sistemes mòbils.
En paral·lel, la integració de Gemini 2.5 Flash Native Audio a Gemini Live i Search Live s'està desplegant per a usuaris de l'aplicació de Google a Android i iOS, començant pels Estats Units. A mesura que aquestes funcions madurin i superin les primeres fases de proves i adaptació, s'espera que arribin també a més països, previsiblement incloent mercats europeus, on la demanda de traducció i assistents de veu és especialment alta.
Google ha avançat a més la intenció d'incorporar aquesta experiència de veu i traducció en altres productes, inclosa la API de Gemini, al llarg dels propers mesos i anys. Això obriria la porta que empreses europees de sectors com ara turisme, logística, educació o administració pública puguin integrar directament aquestes capacitats en els seus propis serveis.
La companyia presenta aquestes novetats com a part duna estratègia més àmplia perquè els desenvolupadors puguin construir agents conversacionals amb veu natural des de ja, aprofitant tant Gemini 2.5 Flash Native Audio com altres models de la família 2.5 Flash i Pro orientats a la generació de veu més controlada (ajustant to, intenció, velocitat, etc.) i marcs com Agentic AI Foundation.
Amb aquest conjunt de millores, Google reforça la idea que la veu serà un dels principals canals d'interacció amb la intel·ligència artificial: des d'assistents que atenen trucades de clients i tramiten operacions complexes, fins a sistemes de traducció simultània que faciliten la comunicació entre persones que no comparteixen idioma. Gemini 2.5 Flash Native Audio se situa al centre d'aquesta aposta, afinant tant la comprensió com l'expressió per veu perquè la tecnologia resulti més útil i menys intrusiva en el dia a dia, en espera del seu desplegament complet a Europa i altres mercats.
Sóc un apassionat de la tecnologia que ha convertit els seus interessos frikis en professió. Porto més de 10 anys de la meva vida utilitzant tecnologia d'avantguarda i traslladant tota mena de programes per pura curiositat. Ara he especialitzat en tecnologia d'ordinador i videojocs. Això és perquè des de fa més de 5 anys que treballo redactant per a diverses webs en matèria de tecnologia i videojocs, creant articles que busquen donar-te la informació que necessites amb un llenguatge comprensible per tothom.
Si tens qualsevol pregunta, els meus coneixements van des de tot allò relacionat amb el sistema operatiu Windows així com Android per a mòbils. I és que el meu compromís és amb tu, sempre estic disposat a dedicar-te uns minuts i ajudar-te a resoldre qualsevol dubte que tinguis a aquest món d'internet.
