Google Translate fa el salt a la traducció en temps real amb auriculars gràcies a la IA Gemini

Darrera actualització: 15/12/2025

  • L'app Traductor de Google incorpora traducció en viu amb auriculars convencionals usant la IA Gemini i suport per a més de 70 idiomes.
  • La funció arriba primer en beta a Android als EUA, Mèxic i l'Índia, amb expansió prevista a iOS i més regions a partir del 2026.
  • Gemini millora la naturalitat de les traduccions, interpreta argot i modismes i preserva to, èmfasi i ritme de la veu original.
  • Google Translate suma eines d'aprenentatge d'idiomes i es posiciona com a alternativa oberta davant de l'enfocament més tancat de l'ecosistema d'Apple.

Traducció amb IA a Google Translate

El Traductor Google està vivint un dels seus canvis més grans des que es va llançar. La companyia ha començat a desplegar una funció de traducció en temps real directament als auriculars, recolzada en les capacitats del seu model d'intel·ligència artificial Bessons. La idea és senzilla d'explicar però complexa d'executar: que puguis escoltar als teus cascos, gairebé a l'instant, allò que una altra persona diu en un altre idioma, amb una veu sintètica menys robòtica.

Aquest moviment encaixa amb lestratègia de Google de convertir Translate en alguna cosa més que un simple traductor de text. Ara aspira a ser una eina central per comunicar-se i aprendre idiomes, usant la IA tant per entendre millor l'argot i els matisos culturals com per acompanyar l'usuari en la seva pràctica diària. Ara com ara, la novetat s'estrena a mercats concrets i en fase beta, però apunta clarament a un desplegament global en els propers anys.

Traducció en temps real amb qualsevol auricular

Traducció en temps real google translate

La funció més cridanera és la nova traducció de converses en viu a través d'auriculars. El que abans estava limitat a models concrets com els Pixel Buds ara s'obre a pràcticament qualsevol casc o auricular compatible amb el mòbil. Només cal tenir instal·lada l'app Traductor Google, connectar els auriculars i accedir al mode de traducció en viu.

A Android, el procés passa per obrir l'aplicació, triar els idiomes de la conversa i tocar el botó de «Traducció en viu» (Live Translate). Des d'aquí, el micròfon del telèfon detecta automàticament quan parla cada persona i en quin idioma, transcriu en temps real, envia l'àudio als servidors de Google perquè Gemini el processi, i reprodueix la traducció pels auriculars amb un retard relativament baix.

Google explica que la IA s'encarrega de mantenir el to, la cadència i l'èmfasi del parlant original, de manera que no només s'entén el contingut del que es diu, sinó també part de la intenció: si algú està enfadat, fent broma o parlant en un to més seriós. A la pantalla del mòbil es mostra alhora una transcripció de la conversa traduïda, útil si es vol revisar el que s'ha dit o fer clic en un fragment per tornar-lo a sentir.

La funció s'està desplegant inicialment com versió beta a l'app de Translate per Android, amb disponibilitat limitada a mercats com Estats Units, Mèxic i Índia. Tot i així, la compatibilitat lingüística és àmplia: el sistema és capaç d'oferir traducció de veu en viu a més de 70 idiomes, amb milers de combinacions possibles entre parells de llengües.

En el cas de iPhone, Google ha confirmat que la traducció en temps real amb auriculars arribarà també a la app del Traductor a iPhone, encara que el desplegament es farà més endavant. La companyia ha marcat l'horitzó de 2026 per ampliar regions i llançar la funció a iOS, cosa que deixa un marge de prova important abans d'estendre-la de forma més massiva a Europa i altres països.

Contingut exclusiu - Clic Aquí  Com pintar cada altra fila a Google Sheets

Com funciona Live Translate i què ofereix al dia a dia

traducció google translate

Més enllà del titular de la IA, lexperiència dús és clau. Un cop activat el mode de «Traducció en viu» a l'app, l'usuari pot mantenir una conversa sense necessitat de mirar constantment la pantalla. El sistema reprodueix la traducció per sobre de la veu original que capta el micròfon, cosa que permet seguir una xerrada, una ponència o fins i tot una visita guiada amb els auriculars posats.

Segons proves internes i d'alguns mitjans especialitzats, la latència es manté generalment per sota del segon quan la connexió de dades és estable. Aquest marge és suficient perquè el flux de la conversa sigui raonablement natural, sense obligar a pauses llargues entre frases. L'efecte pràctic es nota, per exemple, en seguir una explicació en un altre idioma o en escoltar un ponent estranger en una conferència.

Un dels punts forts del sistema és que no exigeix ​​auriculars «intel·ligents» ni models oficials. Qualsevol casc Bluetooth o amb cable que funcioni amb el mòbil serveix com a sortida dàudio per a la traducció. Això ho diferencia de solucions més tancades, on determinades funcions es limiten a dispositius d'una marca concreta, i obre la porta que un usuari pugui aprofitar la funció sense haver de renovar el maquinari.

A la pràctica, el rendiment varia segons l'entorn. En llocs amb soroll ambiental intens o amb moltes persones parlant alhora, augmenten els errors de reconeixement de veu, cosa habitual en qualsevol sistema actual. Google indica que Gemini incorpora mecanismes per filtrar part del soroll de fons i centrar-se en la veu principal, però reconeix que les condicions ideals segueixen sent sales relativament tranquil·les i parlants que articulin amb claredat.

Pel que fa a usos concrets, l'eina està pensada per a situacions com viatges, reunions de treball, classes, entrevistes o tràmits administratius en un altre idioma. A escenaris unidireccionals (algú parla i la resta escolta) l'experiència és especialment fluida; en converses molt ràpides o amb diversos interlocutors que es trepitgen, el sistema pot tenir més dificultats per segmentar cada intervenció.

Gemini: la IA que intenta sonar menys robòtica

formes oficials d'accedir a Gemini Pro

Darrere d'aquesta nova funció d'auriculars i de la resta de millores a Google Translate hi ha Bessons, el model de llenguatge de Google que la companyia està integrant de manera gradual en productes clau com Cerca i el mateix Traductor. El seu rol principal és anar més enllà de la traducció paraula per paraula per interpretar el sentit complet de les frases.

A la pràctica, això es tradueix en traduccions menys literals i més naturals, sobretot quan entren en joc expressions col·loquials, modismes o argot local. Exemples típics com l'anglès stealing my thunder o expressions en espanyol del tipus «em va prendre els cabells» solien donar lloc a resultats estranys quan es traduïen al peu de la lletra. Amb Gemini, el sistema analitza el context i proposa alternatives que reflecteixen millor el significat real de la frase a l'idioma de destinació.

Google afirma que aquesta aproximació permet captar millor registres de parla, ironies suaus o canvis de to, el que repercuteix directament en la traducció de converses orals. No és el mateix traslladar un missatge neutre que una frase carregada de sarcasme o un comentari aquest mitjà de broma. Tot i que continua havent-hi marge d'error, la companyia assegura que les seves mètriques internes mostren millores de dos dígits en qualitat de traducció respecte a sistemes anteriors, sobretot entre idiomes molt diferents entre si.

Contingut exclusiu - Clic Aquí  Com afegir usuaris a una reunió d'Adobe Acrobat Connect?

Aquestes capacitats no es limiten a l'àudio. La IA també intervé a la traducció de text i de contingut visual, com cartells o menús fotografiats amb la càmera del mòbil. La diferència és que ara el sistema pot oferir resultats amb estructures sintàctiques més naturals, suggerir alternatives de vocabulari i, en alguns casos, adaptar el nivell de formalitat segons el context.

Tot aquest processament es realitza combinant recursos al núvol amb tasques al propi dispositiu. Part del treball pesant s'executa als servidors de Google, mentre que elements com la síntesi de veu i certs filtres es manegen al mòbil. Segons la companyia, el consum de bateria és comparable al d'una trucada de veu o una trucada de vídeo curta, de manera que no caldria un maquinari especialment potent per utilitzar la funció de forma ocasional.

Més enllà de traduir: Translate com a eina per aprendre idiomes

Què és Bluetooth LE Àudio i com utilitzar l'àudio compartit a Windows 11

Al costat de la traducció en temps real, Google està reforçant el perfil educatiu de Translate. L'aplicació incorpora ara funcions d'aprenentatge d'idiomes basades en IA, amb l'objectiu de complementar plataformes específiques com Duolingo o jo tradueixo, sense substituir-les.

Entre les novetats destaquen els comentaris millorats sobre pronunciació, que ofereixen suggeriments més concrets en practicar frases parlades. L'usuari pot repetir una expressió i rebre indicacions sobre ritme, entonació o sons mal articulats, cosa que ajuda a fer que la forma de parlar s'acosti més a la d'un nadiu i menys a una lectura robòtica.

L'app també ha incorporat un sistema de ratxes o dies consecutius de pràctica, que registra quants dies seguits s'ha fet servir l'eina per estudiar. Aquest tipus de mecànica, molt estesa en apps educatives, cerca mantenir la motivació a través de petites metes diàries i de la sensació de progrés continu.

Google està començant a desplegar aquestes opcions a al voltant de 20 països i regions, amb presència inicial en mercats com Alemanya, Índia o Suècia. A mesura que s'estengui a més territoris europeus, és previsible que l'app es converteixi en una opció més habitual per als que practiquen idiomes de manera informal, combinant-la amb cursos, classes o traduir vídeos d'anglès a espanyol.

En paral·lel, la companyia està experimentant a Google Labs amb tres experiències gratuïtes orientades a l'aprenentatge: propostes com a lliçons breus centrades en vocabulari útil, mòduls dedicats a l'argot i expressions informals, i activitats visuals on la IA identifica objectes en una foto i ensenya els seus noms en un altre idioma. Tot i que aquestes proves no formen part estricta de l'app Translate, apunten a un ecosistema d'eines lingüístiques més ampli, tot això amb el suport del mateix motor d'IA.

Comparació amb Apple i el paper d'Europa

L'enfocament de Google contrasta amb el d'Apple al terreny de la traducció en temps real. Mentre que la companyia de Cupertino ha apostat per una funció integrada al seu propi ecosistema i lligada a models concrets d'AirPods, Google ha optat per una solució basada en programari i compatible amb qualsevol auricular estàndard. Aquesta diferència es nota especialment en mercats on la varietat de dispositius és la norma, com ara l'entorn Android europeu.

Contingut exclusiu - Clic Aquí  Com canviar l'amplada de la cel·la a Google Sheets

Apple prioritza el processament local de l'àudio, és a dir, que la major part de la feina es faci al mateix iPhone o iPad. Això aporta avantatges en termes de privadesa i dependència de la connexió, però limita l'escalabilitat del sistema i el nombre d'idiomes suportats; altres solucions, com Equips de Microsoft, afegeixen traducció en temps real. Google, per la seva banda, recorre amb més intensitat al núvol, cosa que li permet manejar un catàleg de més de 70 idiomes en traducció de veu i actualitzar models de forma centralitzada.

Des de l'òptica de l'usuari europeu, la proposta de Google pot ser més flexible: no obliga a canviar d'auriculars ni mòbil per accedir a la traducció en viu. No obstant això, cal tenir en compte que la funció encara no s'ha activat de manera generalitzada a Europa. Tot i que l'app ja inclou el mode de traducció de converses i altres eines avançades, l'escolta contínua a auriculars continua subjecta a un desplegament gradual per països.

Google no ha ofert un calendari detallat per a Espanya o la resta de la UE, però sí que ha deixat clar que aquesta fase beta servirà per a ajustar la latència, millorar el reconeixement d'accents locals i avaluar la càrrega als servidors abans d'ampliar la cobertura. És raonable pensar que factors com la regulació europea en matèria de dades i l'equilibri entre processament local i al núvol també influiran en el ritme de desplegament.

Tot i que la comparació amb Apple sol centrar-se en la comoditat i la integració, en aquest cas pesen també temes com la privadesa de l'àudio i la gestió de dades sensibles. Google insisteix que aplica filtres per eliminar soroll i que la informació es fa servir per millorar la qualitat de la traducció, però la discussió sobre com es tracten aquestes converses seguirà sobre la taula, especialment en regions amb regulacions estrictes com l'europea.

Un traductor que es vol convertir en intermediari invisible

Més enllà dels detalls tècnics, el missatge que deixa aquesta actualització és que Google Translate aspira a ser un intermediari cada cop més discret entre persones que no comparteixen idioma. No llança nous aparells ni obliga a aprendre interfícies complicades: es recolza al mòbil, en auriculars convencionals i en millores contínues de programari impulsades per Gemini.

La funció de traducció en viu encara està en fase de proves i no arriba a tots els mercats, però il·lustra bé cap a on es dirigeix ​​el sector: traduccions més ràpides, amb més context i més properes a com parlem realment. Paral·lelament, les eines d'aprenentatge integrades i la millora en el tractament d'argot i modismes apunten a un ús més quotidià del Traductor, no només per sortir del pas en un viatge puntual.

Queden reptes evidents, des de la precisió en entorns sorollosos fins al maneig d'expressions molt locals o culturalment carregades, passant per les implicacions d'enviar àudio al núvol. Tot i així, el salt respecte a la traducció literal de fa només uns anys és considerable: per a molts usuaris, la combinació de Gemini, Google Translate i uns auriculars normals comença a ser suficient per desenvolupar-se amb certa soltesa en converses que abans haurien resultat inabordables sense un intèrpret humà.

Article relacionat:
Com funciona la traducció instantània a l'aplicació Google Translate?