- Gemini 2.5 Flash Native Audio verbetert de natuurlijkheid, nauwkeurigheid en vloeiendheid van spraakgesprekken met behulp van Google's AI.
- Het model verfijnt aanroepen naar externe functies, volgt complexe instructies beter op en behoudt de context beter in lange dialogen.
- Het omvat realtime spraak-naar-spraakvertaling, met ondersteuning voor meer dan 70 talen en 2.000 vertaalparen, waarbij intonatie en ritme behouden blijven.
- Het is al geïntegreerd in Google AI Studio, Vertex AI, Gemini Live en Search Live, en wordt ingezet in producten van Google en derden.
Google heeft met een belangrijke update een nieuwe stap gezet in de evolutie van zijn ecosysteem voor kunstmatige intelligentie. Gemini 2.5 Flash Native AudioHet model is ontworpen om audio in realtime te begrijpen en te genereren. Deze technologie is erop gericht spraakinteracties effectiever te maken. dichter bij een menselijk gesprekzowel in het dagelijks leven als in professionele omgevingen.
Het gaat veel verder dan alleen "een stem geven" aan de reacties van een assistent, en vergeleken met andere opties in vergelijkingen van spraak-AIDit model is ontworpen voor om natuurlijke, functionele en contextuele dialogen in stand te houden, Beslissingen nemen over wanneer aanvullende informatie nodig is en complexe instructies verwerken zonder de conversatie te onderbreken.Hiermee bevestigt Google opnieuw zijn commitment aan spraak als het belangrijkste middel voor interactie met zijn AI-diensten.
Wat is Gemini 2.5 Flash Native Audio en waar wordt het gebruikt?
Gemini 2.5 Flash Native Audio is de nieuwste versie van Google's eigen audiomodel, dat in staat is tot Luister, begrijp en reageer met je stem. In realtime. In tegenstelling tot eerdere systemen die zich uitsluitend richtten op spraaksynthese, is deze engine ontworpen om tegelijkertijd met audio als input en output te werken, waardoor hij bijzonder geschikt is voor spraakassistenten.
Het bedrijf heeft deze versie al in verschillende van zijn belangrijkste platforms geïntegreerd: Google AI Studio, Vertex AI, Gemini Live en Search LiveDit betekent dat zowel ontwikkelaars als bedrijven kunnen beginnen met bouwen. geavanceerde spraakagenten met dezelfde technologie die ten grondslag ligt aan de nieuwste conversationele AI-ervaringen van Google.
In de praktijk zullen gebruikers deze veranderingen merken in bijvoorbeeld hun ervaringen. Tweeling Live (de spraakgespreksmodus met de assistent) of in Zoek live binnen de AI-modus van de Google-app, waar de gesproken antwoorden klinken expressiever, duidelijker en beter in de context geplaatstBovendien kunt u de assistent zelfs vragen om langzamer te spreken, waardoor het tempo van het gesprek op een natuurlijke manier wordt aangepast.
Naast Google zelf zijn deze mogelijkheden ook beschikbaar gesteld aan derden via Vertex AI en de Gemini APIzodat andere bedrijven kunnen creëren autonome agenten spraakgestuurde virtuele receptionisten of assistentietools met hetzelfde niveau van spraakverfijning.
Nauwkeurigere externe functies en beter beoordeelde modellen

Een van de gebieden waarop Gemini 2.5 Flash Native Audio de meeste vooruitgang heeft geboekt, is het vermogen om... externe functies aanroepenSimpel gezegd is het model nu betrouwbaarder als het gaat om het nemen van beslissingen. wanneer u realtime services of gegevens moet raadplegen.Bijvoorbeeld om bijgewerkte informatie op te halen, de status van een bestelling te controleren of een geautomatiseerd proces te starten.
Google benadrukt dat deze verhoogde precisie zich vertaalt in minder fouten bij het uitvoeren van acties, waardoor ongemakkelijke situaties waarin de assistent tekortschiet of te vroeg handelt, worden voorkomen. Het systeem is in staat tot... Voeg de opgehaalde gegevens in de audiorespons in. zonder dat de gebruiker merkt dat het gesprek abrupt wordt onderbroken.
Om deze vooruitgang te meten, heeft het bedrijf het model aan tests onderworpen zoals: ComplexFuncBench Audio, een evaluatieplatform gericht op meerfasige taken met beperkingen. In dit scenario heeft Gemini 2.5 Flash Native Audio ongeveer een Een succespercentage van 71,5% bij het uitvoeren van complexe functies.waardoor het zich onderscheidt van eerdere versies en andere concurrerende modellen voor dit type gebruik.
Deze prestatie is met name relevant in contexten waar geavanceerde geautomatiseerde workflows nodig zijn, zoals bijvoorbeeld: callcenters, technische ondersteuning of transactieverwerking (bijvoorbeeld financiële of administratieve taken) waarbij elke stap afhankelijk is van de vorige en er weinig ruimte is voor fouten.
Betere instructieregistratie en meer samenhangende gesprekslijnen.
Een ander aandachtspunt van de update is hoe het model Interpreteer en respecteer de instructies. die het ontvangt van zowel eindgebruikers als ontwikkelaars. Volgens gegevens van Google is het nalevingspercentage van de instructies gedaald van 84% naar 90% therapietrouwDit betekent dat de antwoorden beter aansluiten bij wat er daadwerkelijk gevraagd is.
Deze sprong is cruciaal bij taken waar dit vereist is. complexe instructies, meerdere stappen of meerdere voorwaardenBijvoorbeeld wanneer je een uitleg in een specifieke stijl aanvraagt, een samenvatting met een bepaalde tijdslimiet wilt ontvangen of een workflow opzet die afhankelijk is van meerdere gekoppelde beslissingen.
In verband hiermee heeft Gemini 2.5 Flash Native Audio de mogelijkheid gekregen om Haal de context van eerdere berichten op.In gesprekken die uit meerdere beurten bestaan, onthoudt het model beter wat er is gezegd, de nuances die de gebruiker heeft aangebracht en de correcties die tijdens de dialoog zijn gemaakt.
Deze verbetering in het gespreksgeheugen vermindert de noodzaak om dezelfde informatie steeds opnieuw te herhalen en draagt bij aan effectievere interacties. soepeler en minder frustrerendHet gesprek voelt meer aan als een gesprek met iemand die verdergaat waar hij gebleven was, in plaats van bij elk antwoord helemaal opnieuw te beginnen.
Praktische voorbeelden: van e-commerce tot financiële dienstverlening
Naast interne statistieken gebruikt Google ook klantvoorbeelden om de praktische impact van Gemini 2.5 Flash Native Audio te illustreren. In de e-commerce sector heeft Shopify deze mogelijkheden al in zijn assistent geïntegreerd. Makker"wat detailhandelaren helpt bij het beheren van hun winkels en het oplossen van vragen over de bedrijfsvoering.
Volgens het bedrijf hebben veel gebruikers Ze vergeten zelfs dat ze met een AI praten. Na een kort gesprek bedankte de gebruiker de bot zelfs na een lange vraag. Dit soort reactie suggereert dat de vooruitgang in natuurlijkheid en toon ervoor zorgt dat technologie subtiel op de achtergrond raakt.
In de financiële sector is de aanbieder United Wholesale Mortgage (UWM) Het bedrijf heeft het model geïntegreerd in zijn "Mia"-assistent voor het beheer van hypotheekgerelateerde processen. Door de combinatie van Gemini 2.5 en andere interne systemen claimt het bedrijf te beschikken over... meer dan 14.000 leningen verwerkt voor haar partners, waarbij gebruik wordt gemaakt van geautomatiseerde interacties die nauwkeurigheid en naleving van de regelgeving vereisen.
De startup zelf Nieuw.ai Het maakt gebruik van Gemini 2.5 Flash Native Audio via Vertex AI om zijn werking te garanderen. virtuele receptionistenDeze spraakassistenten zijn in staat om de hoofdspreker te herkennen, zelfs in lawaaierige omgevingen, midden in een gesprek van taal te wisselen en de verbinding te behouden. een natuurlijke stem met emotionele nuanceswat cruciaal is voor de klantenservice.
Realtime spraak-naar-spraakvertaling: meer talen en meer nuances
Een van de meest opvallende toevoegingen in deze versie is de live spraak-naar-spraak vertalingGemini 2.5 Flash Native Audio, dat oorspronkelijk in de Google Translate-app was geïntegreerd, gaat verder dan alleen het omzetten van audio naar tekst of het aanbieden van gefragmenteerde vertalingen, en maakt een meer meeslepende ervaring mogelijk. gelijktijdige vertaling dichter bij menselijke interpretatie.
Het systeem kan werken in de modus van continu luisterenDit stelt de gebruiker in staat om een koptelefoon op te zetten en te horen wat er om hen heen gebeurt, vertaald in hun eigen taal, zonder dat ze hoeven te pauzeren of op knoppen te drukken voor elke zin. Deze optie kan handig zijn tijdens reizen, internationale vergaderingen of evenementen waar meerdere talen worden gesproken.
Er is ook rekening gehouden met situaties van tweerichtingsgesprekAls bijvoorbeeld de ene persoon Engels spreekt en de andere Hindi, dan speelt de Engelse vertaling via de koptelefoon in realtime af, terwijl de Hindi-vertaling op de telefoon wordt afgespeeld zodra de eerste persoon is uitgesproken. Het systeem schakelt automatisch over naar de juiste taal, afhankelijk van wie er spreekt, zonder dat de gebruiker tussendoor instellingen hoeft aan te passen.
Een van de meest relevante details van deze functie is het vermogen om behoud de oorspronkelijke intonatie, het ritme en de klank. van de spreker. Dit resulteert in vertalingen die minder robotachtig klinken en dichter bij de stem van de spreker liggen, waardoor ze gemakkelijker te verstaan zijn en de ervaring natuurlijker aanvoelt.
Taalondersteuning, automatische detectie en ruisfiltering
Wat betreft de taalkundige reikwijdte biedt spraakvertaling op basis van Gemini 2.5 ondersteuning voor: meer dan 70 talen en zo'n 2.000 vertaalparenDoor de wereldwijde kennis van het model te combineren met de meertalige en native audiomogelijkheden, kan het een breed scala aan taalcombinaties ondersteunen, waaronder vele die niet altijd prioriteit krijgen bij andere tools.
Het systeem kan beheren meertalige invoer Binnen één sessie begrijpt het systeem meerdere talen tegelijk, zonder dat de gebruiker de instellingen handmatig hoeft aan te passen wanneer iemand van taal wisselt. Deze functie is vooral handig in gesprekken waarin verschillende talen op natuurlijke wijze door elkaar worden gesproken.
Dankzij de automatische detectie van gesproken taalDe gebruiker hoeft niet van tevoren te weten in welke taal zijn gesprekspartner communiceert: het model herkent de taal en begint direct met vertalen, waardoor wrijving en tussenstappen worden verminderd.
Gemini 2.5 Flash Native Audio bevat ook mechanismen voor robuustheid tegen ruisHet apparaat kan omgevingsgeluiden filteren om de hoofdstem voorrang te geven, waardoor comfortabelere gesprekken mogelijk zijn in drukke straten, open ruimtes of plaatsen met achtergrondmuziek.
Beschikbaarheid, uitrol en vooruitzichten voor Europa
Live spraakvertaling op basis van dit model is momenteel beschikbaar in bètafase van de Google Translate-app voor Android-apparaten in markten zoals de Verenigde Staten, Mexico en India. Google heeft bevestigd dat de dienst geleidelijk zal worden uitgerold naar meer regio's en platforms, inclusief andere mobiele systemen.
Tegelijkertijd vindt de integratie van Gemini 2.5 Flash Native Audio plaats in Gemini Live en Search Live De functie wordt uitgerold naar gebruikers van de Google-app op Android en iOS, te beginnen in de Verenigde Staten. Naarmate deze functies zich verder ontwikkelen en de eerste test- en aanpassingsfases doorlopen, zullen ze naar verwachting ook in andere regio's beschikbaar komen. meer landen, vermoedelijk inclusief Europese markten, waar de vraag naar vertalingen en spraakassistenten bijzonder hoog is.
Google heeft ook aangekondigd dat het deze spraak- en vertaalervaring in andere producten wil integreren, waaronder de Gemini-APIIn de komende maanden en jaren zou dit de weg vrijmaken voor Europese bedrijven in sectoren zoals toerisme, logistiek, onderwijs en openbaar bestuur om deze mogelijkheden direct in hun eigen diensten te integreren.
Het bedrijf presenteert deze nieuwe functies als onderdeel van een bredere strategie om ontwikkelaars in staat te stellen Ontwikkel conversationele agenten met een natuurlijke stem. Vanaf nu kunnen we gebruikmaken van zowel de native audio van de Gemini 2.5 Flash als andere modellen in de 2.5 Flash- en Pro-familie die gericht zijn op meer gecontroleerde spraakgeneratie (het aanpassen van toon, intentie, snelheid, enz.) en frames zoals Agentic AI Foundation.
Met deze reeks verbeteringen versterkt Google het idee dat spraak een van de belangrijkste kanalen voor interactie met kunstmatige intelligentie zal zijn: van assistenten die klantgesprekken afhandelen en complexe processen verwerken, tot simultaanvertalingssystemen die de communicatie vergemakkelijken tussen mensen die geen gemeenschappelijke taal spreken. Gemini 2.5 Flash Native Audio vormt de kern van dit project en verfijnt zowel spraakverstaanbaarheid als -expressie. om de technologie nuttiger en minder opdringerig te maken in het dagelijks leven, in afwachting van de volledige uitrol ervan in Europa en andere markten.
Ik ben een technologieliefhebber die van zijn 'nerd'-interesses zijn beroep heeft gemaakt. Ik heb meer dan 10 jaar van mijn leven doorgebracht met het gebruik van de allernieuwste technologie en het sleutelen aan allerlei programma's uit pure nieuwsgierigheid. Nu heb ik mij gespecialiseerd in computertechnologie en videogames. Dit komt omdat ik al meer dan vijf jaar voor verschillende websites over technologie en videogames schrijf en artikelen heb gemaakt die proberen u de informatie te geven die u nodig heeft in een taal die voor iedereen begrijpelijk is.
Als je vragen hebt, mijn kennis strekt zich uit van alles wat te maken heeft met het Windows-besturingssysteem tot Android voor mobiele telefoons. En mijn toewijding is aan jou, ik ben altijd bereid om een paar minuten te besteden en je te helpen bij het oplossen van eventuele vragen die je hebt in deze internetwereld.
