- Gemini 2.5 Flash Native Audio améliore le naturel, la précision et la fluidité des conversations vocales grâce à l'IA de Google.
- Le modèle affine les appels aux fonctions externes, suit mieux les instructions complexes et conserve mieux le contexte dans les longs dialogues.
- Il intègre la traduction vocale en temps réel, avec la prise en charge de plus de 70 langues et 2 000 paires de traductions, préservant l'intonation et le rythme.
- Il est déjà intégré à Google AI Studio, Vertex AI, Gemini Live et Search Live, et est en cours de déploiement dans les produits Google et tiers.
Google a franchi une nouvelle étape dans l'évolution de son écosystème d'intelligence artificielle avec une mise à jour majeure de Gemini 2.5 Flash Audio natifCe modèle est conçu pour comprendre et générer de l'audio en temps réel. Cette technologie vise à rendre les interactions vocales plus efficaces. plus proche d'une conversation humaineaussi bien dans la vie quotidienne que dans le milieu professionnel.
Loin de se limiter à « donner une voix » aux réponses d'un assistant, et comparé à d'autres options dans Comparaisons d'IA vocaleCe modèle est conçu pour maintenir des dialogues naturels, fonctionnels et contextuels, prendre des décisions quant au moment opportun pour demander des informations complémentaires et gérer des instructions complexes sans interrompre le déroulement de la conversation.Avec cela, Google réaffirme son engagement envers la voix comme principal moyen d'interaction avec ses services d'IA.
Qu'est-ce que Gemini 2.5 Flash Native Audio et où est-il utilisé ?
Gemini 2.5 Flash Native Audio est la dernière version du modèle audio natif de Google, capable de : écouter, comprendre et répondre par la voix en temps réel. Contrairement aux systèmes précédents axés uniquement sur la synthèse vocale, ce moteur est conçu pour traiter simultanément l'audio en entrée et en sortie, ce qui le rend particulièrement adapté aux assistants conversationnels.
L'entreprise a déjà intégré cette version à plusieurs de ses plateformes clés : Google AI Studio, Vertex AI, Gemini Live et Search LiveCela signifie que les développeurs et les entreprises peuvent commencer à construire agents vocaux avancés sur la même technologie qui alimente les dernières expériences d'IA conversationnelle de Google.
En pratique, les utilisateurs remarqueront ces changements dans des expériences telles que : Gémeaux en direct (le mode de conversation vocale avec l'assistant) ou dans Rechercher en direct dans le mode IA de l'application Google, où les réponses vocales sonnent plus expressif, plus clair et mieux contextualiséDe plus, vous pouvez même demander à l'assistant de parler plus lentement, en ajustant naturellement le rythme de la conversation.
Au-delà de Google lui-même, ces fonctionnalités ont été mises à la disposition de tiers via Vertex AI et l'API Geminiafin que d'autres entreprises puissent créer agents autonomes voix, réceptionnistes virtuels ou outils d'assistance présentant le même niveau de sophistication vocale.
Des fonctions externes plus précises et des modèles mieux notés

L'un des domaines où Gemini 2.5 Flash Native Audio a réalisé les plus grands progrès réside dans sa capacité à appel de fonctions externesEn termes simples, le modèle est désormais plus fiable pour la prise de décision. lorsque vous avez besoin de consulter des services ou des données en temps réelPar exemple, pour récupérer des informations mises à jour, vérifier l'état d'une commande ou lancer un processus automatisé.
Google souligne que cette précision accrue se traduit par moins d'erreurs lors du déclenchement d'actions, réduisant ainsi les situations embarrassantes où l'assistant est défaillant ou agit prématurément. Le système est capable de insérer les données récupérées dans la réponse audio sans que l'utilisateur ne perçoive de coupures abruptes dans la conversation.
Pour mesurer ces progrès, l'entreprise a soumis le modèle à des tests tels que : Audio ComplexFuncBench, un banc d'évaluation axé sur les tâches multi-étapes avec contraintes. Dans ce scénario, Gemini 2.5 Flash Native Audio a atteint environ un Taux de réussite de 71,5 % dans l'exécution de fonctions complexes, ce qui la place au-dessus des versions précédentes et des autres modèles concurrents pour ce type d'utilisation.
Cette performance est particulièrement pertinente dans les contextes où des flux de travail automatisés sophistiqués sont nécessaires, tels que : centres d'appels, assistance technique ou traitement des transactions (par exemple, des tâches financières ou administratives) où chaque étape dépend de la précédente et où la marge d'erreur est faible.
Un meilleur suivi des instructions et des fils de discussion plus cohérents
Un autre aspect de cette mise à jour concerne le modèle. interpréter et respecter les instructions qu'elle reçoit à la fois des utilisateurs finaux et des développeurs. Selon les données publiées par Google, le taux de conformité aux instructions est passé de 84 % à 90 % d'adhérenceCela signifie des réponses plus conformes à la demande formulée.
Ce saut est essentiel dans les tâches où il est nécessaire instructions complexes, plusieurs étapes ou plusieurs conditionsPar exemple, lorsqu'on demande une explication dans un style spécifique, lorsqu'on demande un résumé avec certaines contraintes de temps, ou lorsqu'on met en place un flux de travail qui dépend de plusieurs décisions liées.
Dans ce contexte, Gemini 2.5 Flash Native Audio a acquis la capacité de Récupérer le contexte des messages précédentsDans les conversations à plusieurs tours de parole, le modèle mémorise mieux ce qui a été dit, les nuances introduites par l'utilisateur et les corrections apportées tout au long du dialogue.
Cette amélioration de la mémoire conversationnelle réduit la nécessité de répéter sans cesse les mêmes informations et contribue à rendre les interactions plus efficaces. plus fluide et moins frustrantL'expérience se rapproche davantage d'une conversation avec une personne qui reprend le sujet là où elle l'avait laissé, plutôt que de repartir de zéro à chaque réponse.
Cas d'utilisation concrets : du commerce électronique aux services financiers
Au-delà des indicateurs internes, Google s'appuie sur des exemples clients pour illustrer l'impact concret de Gemini 2.5 Flash Native Audio. Dans le secteur du e-commerce, Shopify a intégré ces fonctionnalités à son assistant. Sidekick", ce qui aide les détaillants à gérer leurs magasins et à dissiper leurs doutes concernant leur activité.
Selon l'entreprise, de nombreux utilisateurs Ils en oublient même qu'ils parlent à une IA Après quelques minutes de conversation, l'utilisateur a même remercié le bot suite à une longue question. Ce type de réaction suggère que les progrès en matière de naturel et de justesse du ton relèguent subtilement la technologie au second plan.
Dans le secteur financier, le fournisseur United Wholesale Mortgage (UWM) Elle a intégré le modèle à son assistant « Mia » pour gérer les processus liés aux prêts hypothécaires. Grâce à la combinaison de Gemini 2.5 et d'autres systèmes internes, l'entreprise affirme avoir a traité plus de 14 000 prêts pour ses partenaires, s'appuyant sur des interactions automatisées qui exigent précision et conformité réglementaire.
De son côté, la start-up Newo.ai Il utilise Gemini 2.5 Flash Native Audio via Vertex AI pour alimenter son réceptionnistes virtuelsCes assistants vocaux sont capables d'identifier l'interlocuteur principal même dans des environnements bruyants, de changer de langue en pleine conversation et de maintenir la fluidité de la discussion. un registre vocal naturel avec des nuances émotionnellesce qui est crucial dans le service à la clientèle.
Traduction vocale en temps réel : plus de langues et plus de nuances
L'un des ajouts les plus marquants de cette version est le traduction vocale en directInitialement intégré à l'application Google Translate, Gemini 2.5 Flash Native Audio va au-delà de la simple conversion audio en texte ou de l'offre de traductions fragmentaires, permettant une expérience plus immersive. traduction simultanée plus proche de l'interprétation humaine.
Le système peut fonctionner en mode de écoute continueCela permet à l'utilisateur de porter des écouteurs et d'entendre ce qui se passe autour de lui traduit dans sa langue, sans avoir à mettre la lecture en pause ni à appuyer sur un bouton pour chaque phrase. Cette option peut s'avérer utile en voyage, lors de réunions internationales ou d'événements multilingues.
Il a également été tenu compte des situations de conversation bidirectionnellePar exemple, si une personne parle en anglais et l'autre en hindi, les écouteurs diffusent la traduction anglaise en temps réel, tandis que le téléphone diffuse la traduction hindi une fois que la première personne a terminé de parler. Le système bascule automatiquement entre les langues de sortie en fonction de l'interlocuteur, sans que l'utilisateur ait à modifier les paramètres.
L'un des détails les plus pertinents de cette fonction est sa capacité à préserver l'intonation, le rythme et le ton d'origine à partir de l'orateur. Il en résulte des traductions moins robotiques et plus proches du style vocal de l'orateur, ce qui les rend plus faciles à comprendre et l'expérience plus naturelle.
Prise en charge des langues, détection automatique et filtrage du bruit
En termes de portée linguistique, la traduction vocale basée sur Gemini 2.5 offre une prise en charge pour Plus de 70 langues et quelque 2 000 paires de traductionEn combinant les connaissances du monde du modèle avec ses capacités multilingues et audio natives, il peut couvrir un large éventail de combinaisons linguistiques, y compris de nombreuses combinaisons qui ne sont pas toujours priorisées par d'autres outils.
Le système peut gérer entrée multilingue Au cours d'une même session, il comprend plusieurs langues simultanément sans que l'utilisateur ait besoin de modifier manuellement les paramètres à chaque changement de langue. Cette fonctionnalité est particulièrement utile lors de conversations où plusieurs langues se mêlent naturellement.
Merci à la Détection automatique de la langue parléeL'utilisateur n'a pas besoin de savoir à l'avance dans quelle langue son interlocuteur communique : le modèle identifie la langue et commence à traduire instantanément, réduisant ainsi les frictions et les étapes intermédiaires.
Gemini 2.5 Flash Native Audio intègre également des mécanismes pour robustesse face au bruitIl est capable de filtrer une partie du bruit ambiant pour privilégier la voix principale, permettant ainsi des conversations plus confortables dans les rues animées, les espaces ouverts ou les endroits avec de la musique de fond.
Disponibilité, déploiement et perspectives pour l'Europe
La traduction vocale en direct basée sur ce modèle est actuellement disponible dans phase bêta dans l'application Google Traduction pour les appareils Android sur des marchés comme les États-Unis, le Mexique et l'Inde. Google a confirmé que le service sera déployé progressivement. plus de régions et de plateformes, y compris d'autres systèmes mobiles.
En parallèle, l'intégration de Gemini 2.5 Flash Native Audio dans Gemini Live et Search Live Cette fonctionnalité est actuellement déployée auprès des utilisateurs de l'application Google sur Android et iOS, en commençant par les États-Unis. Une fois ces fonctionnalités finalisées et après avoir passé avec succès les phases initiales de test et d'adaptation, elles devraient être disponibles dans d'autres régions. d'autres pays, y compris vraisemblablement les marchés européens, où la demande en matière de traduction et d'assistants vocaux est particulièrement élevée.
Google a également annoncé son intention d'intégrer cette expérience de voix et de traduction à d'autres produits, notamment API GeminiAu cours des prochains mois et des prochaines années, cela ouvrirait la voie à l'intégration directe de ces capacités dans les services proposés par les entreprises européennes des secteurs du tourisme, de la logistique, de l'éducation et de l'administration publique.
L'entreprise présente ces nouvelles fonctionnalités dans le cadre d'une stratégie plus large visant à permettre aux développeurs de créer des agents conversationnels avec une voix naturelle Désormais, en tirant parti à la fois de Gemini 2.5 Flash Native Audio et d'autres modèles de la famille 2.5 Flash et Pro destinés à une génération vocale plus contrôlée (ajustement du ton, de l'intention, de la vitesse, etc.) et de cadres tels que Fondation IA Agentic.
Avec cet ensemble d'améliorations, Google renforce l'idée que la voix sera l'un des principaux canaux d'interaction avec l'intelligence artificielle : des assistants qui gèrent les appels clients et traitent des opérations complexes, aux systèmes de traduction simultanée qui facilitent la communication entre des personnes ne partageant pas la même langue. Gemini 2.5 Flash Native Audio est au cœur de cette initiative, affinant à la fois la compréhension et l'expression de la voix. afin de rendre cette technologie plus utile et moins intrusive au quotidien, en attendant son déploiement complet en Europe et sur d'autres marchés.
Je suis un passionné de technologie qui a fait de ses intérêts de « geek » un métier. J'ai passé plus de 10 ans de ma vie à utiliser des technologies de pointe et à bricoler toutes sortes de programmes par pure curiosité. Aujourd'hui, je me spécialise dans l'informatique et les jeux vidéo. En effet, depuis plus de 5 ans, j'écris pour différents sites Web sur la technologie et les jeux vidéo, créant des articles qui cherchent à vous donner les informations dont vous avez besoin dans un langage compréhensible par tous.
Si vous avez des questions, mes connaissances s'étendent de tout ce qui concerne le système d'exploitation Windows ainsi qu'Android pour les téléphones mobiles. Et mon engagement est envers vous, je suis toujours prêt à consacrer quelques minutes et à vous aider à résoudre toutes les questions que vous pourriez avoir dans ce monde Internet.
