Gemini 2.5 Flash Native Audio: así cambia la voz de la IA de Google

Última actualización: 15/12/2025

  • Gemini 2.5 Flash Native Audio mejora la naturalidad, precisión y fluidez en las conversaciones por voz con la IA de Google.
  • El modelo afina las llamadas a funciones externas, sigue mejor instrucciones complejas y mantiene mejor el contexto en diálogos largos.
  • Incorpora traducción de voz a voz en tiempo real, con soporte para más de 70 idiomas y 2.000 pares de traducción, preservando entonación y ritmo.
  • Ya se integra en Google AI Studio, Vertex AI, Gemini Live y Search Live, y se está desplegando en productos de Google y de terceros.

Gemini 2.5 Flash Native Audio

Google ha dado un nuevo paso en la evolución de su ecosistema de inteligencia artificial con una actualización profunda de Gemini 2.5 Flash Native Audio, el modelo pensado para comprender y generar audio en tiempo real. Esta tecnología está orientada a que las interacciones por voz resulten más cercanas a una conversación humana, tanto en el día a día como en entornos profesionales.

Lejos de limitarse a «poner voz» a las respuestas de un asistente, y frente a otras opciones en comparativas de voice AI, este modelo está diseñado para sostener diálogos naturales, funcionales y contextuales, tomar decisiones sobre cuándo buscar información adicional y gestionar instrucciones complejas sin romper el flujo de la charla. Con ello, Google refuerza su apuesta por la voz como vía principal de interacción con sus servicios de IA.

Qué es Gemini 2.5 Flash Native Audio y dónde se está usando

Gemini 2.5 Flash Native Audio es la versión más reciente del modelo de audio nativo de Google, capaz de escuchar, entender y responder por voz en tiempo real. A diferencia de sistemas anteriores centrados solo en sintetizar voz, este motor está preparado para trabajar con audio como entrada y salida de forma simultánea, lo que lo hace especialmente adecuado para asistentes conversacionales.

La compañía ya ha integrado esta versión en varias de sus plataformas clave: Google AI Studio, Vertex AI, Gemini Live y Search Live. Esto significa que tanto desarrolladores como empresas pueden empezar a construir agentes de voz avanzados sobre la misma tecnología que impulsa las experiencias más recientes de Google en IA conversacional.

En la práctica, los usuarios notarán estos cambios en experiencias como Gemini Live (el modo de conversación por voz con el asistente) o en Search Live dentro del modo de IA de la app de Google, donde las respuestas habladas suenan más expresivas, más claras y mejor contextualizadas. Además, se puede incluso pedir que el asistente hable más despacio, ajustando el ritmo de la conversación de forma natural.

Más allá del propio Google, estas capacidades se han puesto a disposición de terceros a través de Vertex AI y la API de Gemini, de modo que otras compañías pueden crear agentes autónomos de voz, recepcionistas virtuales o herramientas de asistencia con el mismo nivel de sofisticación en la voz.

Funciones externas más precisas y modelos mejor evaluados

IA de voz de Google

Uno de los puntos donde más ha avanzado Gemini 2.5 Flash Native Audio es en su capacidad de llamar a funciones externas. En términos sencillos, el modelo es ahora más fiable a la hora de decidir cuándo necesita consultar servicios o datos en tiempo real, por ejemplo para recuperar información actualizada, comprobar el estado de un pedido o lanzar un proceso automatizado.

Contenido exclusivo - Clic Aquí  Cómo anclar celdas en Google Sheets

Google señala que esta precisión adicional se traduce en menos errores a la hora de disparar acciones, lo que reduce situaciones incómodas en las que el asistente se queda corto o se adelanta innecesariamente. El sistema es capaz de insertar los datos recuperados en la respuesta de audio sin que el usuario perciba cortes bruscos en la conversación.

Para medir estos avances, la empresa ha sometido el modelo a pruebas como ComplexFuncBench Audio, un banco de evaluación centrado en tareas multietapa con restricciones. En este escenario, Gemini 2.5 Flash Native Audio ha alcanzado alrededor de un 71,5 % de éxito en la ejecución de funciones complejas, situándose por encima de iteraciones anteriores y de otros modelos competidores en este tipo de uso.

Este rendimiento resulta especialmente relevante en contextos donde se necesitan flujos automatizados sofisticados, como centros de atención telefónica, soporte técnico o tramitación de operaciones (por ejemplo, gestiones financieras o administrativas) en los que cada paso depende del anterior y hay poco margen de error.

Mejor seguimiento de instrucciones e hilos de conversación más coherentes

Otro de los focos de la actualización está en cómo el modelo interpreta y respeta las instrucciones que recibe, tanto por parte de usuarios finales como de desarrolladores. Según los datos que ha hecho públicos Google, la tasa de cumplimiento de instrucciones ha pasado de un 84 % a un 90 % de adherencia, lo que supone respuestas más alineadas con lo que realmente se ha pedido.

Este salto es clave en tareas donde se exigen instrucciones complejas, varios pasos o múltiples condicionantes. Por ejemplo, a la hora de pedir una explicación con un estilo concreto, solicitar un resumen con determinadas restricciones de tiempo o configurar un flujo de trabajo que dependa de varias decisiones encadenadas.

Asociado a esto, Gemini 2.5 Flash Native Audio ha ganado capacidad para recuperar el contexto de mensajes anteriores. En conversaciones de varios turnos, el modelo recuerda mejor lo que se ha dicho, los matices que el usuario ha introducido y las correcciones realizadas a lo largo del diálogo.

Esta mejora en la memoria conversacional reduce la necesidad de repetir una y otra vez la misma información y ayuda a que las interacciones sean más fluidas y menos frustrantes. La experiencia se acerca más a hablar con una persona que retoma un tema donde se quedó en lugar de empezar de cero en cada respuesta.

Casos de uso reales: de comercio electrónico a servicios financieros

Más allá de las métricas internas, Google está apoyándose en ejemplos de clientes para ilustrar el impacto práctico de Gemini 2.5 Flash Native Audio. En el sector del comercio electrónico, Shopify ha incorporado estas capacidades en su asistente » Sidekick«, que ayuda a los comerciantes a gestionar sus tiendas y resolver dudas sobre el negocio.

Contenido exclusivo - Clic Aquí  ¿Qué es una red neuronal?

Según la compañía, muchos usuarios llegan a olvidar que están hablando con una IA al cabo de unos minutos de conversación, hasta el punto de dar las gracias al bot tras una consulta larga. Este tipo de reacción sugiere que los avances en naturalidad y tono hacen que la tecnología pase discretamente a segundo plano.

En el ámbito financiero, el proveedor United Wholesale Mortgage (UWM) ha integrado el modelo en su asistente «Mia» para gestionar procesos relacionados con hipotecas. Con la combinación de Gemini 2.5 y otros sistemas internos, la empresa afirma haber tramitado más de 14.000 préstamos para sus socios, apoyándose en interacciones automatizadas que requieren precisión y cumplimiento de normativa.

Por su parte, la startup Newo.ai utiliza Gemini 2.5 Flash Native Audio a través de Vertex AI para potenciar sus recepcionistas virtuales. Estos asistentes de voz son capaces de identificar al hablante principal incluso en entornos ruidosos, cambiar de idioma a mitad de conversación y mantener un registro de voz natural y con matices emocionales, lo que resulta crucial en la atención al público.

Traducción de voz a voz en tiempo real: más idiomas y más matices

Una de las incorporaciones más llamativas de esta versión es la traducción de voz a voz en vivo, integrada inicialmente en la app de Google Translate. En lugar de limitarse a pasar audio a texto o a ofrecer traducción por fragmentos, Gemini 2.5 Flash Native Audio permite una experiencia de traducción simultánea más cercana a la interpretación humana.

El sistema puede funcionar en modo de escucha continua, de forma que el usuario se coloca unos auriculares y escucha lo que ocurre a su alrededor traducido a su idioma, sin necesidad de pausar o pulsar botones para cada frase. Esta opción puede ser útil en viajes, reuniones internacionales o eventos en los que haya varios idiomas en juego.

También se ha pensado en situaciones de conversación bidireccional. Por ejemplo, si una persona habla en inglés y la otra en hindi, los auriculares reproducen la traducción al inglés en tiempo real, mientras que el teléfono emite la traducción al hindi cuando el primero termina de hablar. El sistema alterna automáticamente el idioma de salida según quién interviene, sin que el usuario tenga que cambiar ajustes entre turnos.

Uno de los detalles más relevantes de esta función es su capacidad de preservar la entonación, el ritmo y el tono original del hablante. Esto da lugar a traducciones que suenan menos robóticas y más cercanas al estilo de voz de la persona que está hablando, lo que facilita la comprensión y hace la experiencia más natural.

Cobertura de idiomas, detección automática y filtrado de ruido

En cuanto al alcance lingüístico, la traducción de voz basada en Gemini 2.5 ofrece soporte para más de 70 idiomas y unos 2.000 pares de traducción, combinando el conocimiento del mundo del modelo con sus capacidades multilingües y de audio nativo. Esto le permite dar cobertura a una gran cantidad de combinaciones de lengua, incluidas muchas que no siempre se priorizan en otras herramientas.

Contenido exclusivo - Clic Aquí  Cómo alojar Gemini AI en un entorno local: guía completa

El sistema puede gestionar entrada multilingüe dentro de una misma sesión, es decir, entiende simultáneamente más de un idioma sin obligar al usuario a ajustar manualmente la configuración cada vez que alguien cambia de lengua. Esta característica resulta especialmente útil en conversaciones donde se mezclan varios idiomas con naturalidad.

Gracias a la detección automática del idioma hablado, el usuario no necesita saber de antemano en qué idioma se está comunicando su interlocutor: el modelo identifica la lengua y comienza a traducir sobre la marcha, reduciendo fricciones y pasos intermedios.

Gemini 2.5 Flash Native Audio también incorpora mecanismos de robustez frente al ruido. Es capaz de filtrar parte del sonido ambiente para priorizar la voz principal, lo que permite mantener conversaciones más cómodas en calles concurridas, espacios abiertos o lugares con música de fondo.

Disponibilidad, despliegue y perspectivas para Europa

La traducción de voz en vivo basada en este modelo se encuentra actualmente disponible en fase beta en la app de Google Translate para dispositivos Android en mercados como Estados Unidos, México e India. Google ha confirmado que el servicio se irá extendiendo progresivamente a más regiones y plataformas, incluyendo otros sistemas móviles.

En paralelo, la integración de Gemini 2.5 Flash Native Audio en Gemini Live y Search Live se está desplegando para usuarios de la aplicación de Google en Android e iOS, empezando por Estados Unidos. A medida que estas funciones maduren y superen las primeras fases de pruebas y adaptación, se espera que lleguen también a más países, previsiblemente incluyendo mercados europeos, donde la demanda de traducción y asistentes de voz es especialmente alta.

Google ha adelantado además su intención de incorporar esta experiencia de voz y traducción en otros productos, incluida la API de Gemini, a lo largo de los próximos meses y años. Esto abriría la puerta a que empresas europeas de sectores como turismo, logística, educación o administración pública puedan integrar directamente estas capacidades en sus propios servicios.

La compañía presenta estas novedades como parte de una estrategia más amplia para que los desarrolladores puedan construir agentes conversacionales con voz natural desde ya, aprovechando tanto Gemini 2.5 Flash Native Audio como otros modelos de la familia 2.5 Flash y Pro orientados a la generación de voz más controlada (ajustando tono, intención, velocidad, etc.) y marcos como Agentic AI Foundation.

Con este conjunto de mejoras, Google refuerza la idea de que la voz será uno de los canales principales de interacción con la inteligencia artificial: desde asistentes que atienden llamadas de clientes y tramitan operaciones complejas, hasta sistemas de traducción simultánea que facilitan la comunicación entre personas que no comparten idioma. Gemini 2.5 Flash Native Audio se sitúa en el centro de esa apuesta, afinando tanto la comprensión como la expresión por voz para que la tecnología resulte más útil y menos intrusiva en el día a día, a la espera de su despliegue completo en Europa y otros mercados.

Voice.ai vs ElevenLabs vs Udio: cuál suena mejor
Artículo relacionado:
Voice.ai vs ElevenLabs vs Udio: comparativa completa de voces IA