Gemini 2.5 Flash Native Audio: Sådan ændrer Googles AI-stemme sig

Sidste ændring: 15/12/2025

  • Gemini 2.5 Flash Native Audio forbedrer naturligheden, nøjagtigheden og flydendeheden af ​​stemmesamtaler med Googles AI.
  • Modellen forfiner kald til eksterne funktioner, følger komplekse instruktioner bedre og opretholder kontekst bedre i lange dialoger.
  • Den inkorporerer tale-til-stemme-oversættelse i realtid med understøttelse af mere end 70 sprog og 2.000 oversættelsespar, hvilket bevarer intonation og rytme.
  • Det er allerede integreret i Google AI Studio, Vertex AI, Gemini Live og Search Live, og bliver implementeret i Google og tredjepartsprodukter.

Gemini 2.5 Flash Native Audio

Google har taget endnu et skridt i udviklingen af ​​sit økosystem for kunstig intelligens med en større opdatering til Gemini 2.5 Flash Native AudioModellen er designet til at forstå og generere lyd i realtid. Denne teknologi er gearet til at gøre stemmeinteraktioner mere effektive. tættere på en menneskelig samtalebåde i hverdagen og i professionelle miljøer.

Langt fra blot at "give stemme" til en assistents svar, og sammenlignet med andre muligheder i stemme-AI-sammenligningerDenne model er designet til at opretholde naturlige, funktionelle og kontekstuelle dialoger, træffe beslutninger om, hvornår der skal søges yderligere information, og håndtere komplekse instruktioner uden at afbryde samtalens flowMed dette styrker Google sin forpligtelse til stemme som det primære interaktionsmiddel med sine AI-tjenester.

Hvad er Gemini 2.5 Flash Native Audio, og hvor bruges det?

Gemini 2.5 Flash Native Audio er den nyeste version af Googles native audio-model, der er i stand til lytte, forstå og svare med stemmen i realtid. I modsætning til tidligere systemer, der udelukkende fokuserede på talesyntese, er denne motor designet til at arbejde med lyd som både input og output samtidigt, hvilket gør den særligt velegnet til samtaleassistenter.

Virksomheden har allerede integreret denne version i flere af sine nøgleplatforme: Google AI Studio, Vertex AI, Gemini Live og Search LiveDet betyder, at både udviklere og virksomheder kan begynde at bygge avancerede stemmeagenter på den samme teknologi, der driver Googles nyeste samtalebaserede AI-oplevelser.

I praksis vil brugerne bemærke disse ændringer i oplevelser som f.eks. Gemini Live (stemmesamtaletilstanden med assistenten) eller i Søg live i AI-tilstanden i Google-appen, hvor de talte svar lyder mere udtryksfuld, klarere og bedre kontekstualiseretDerudover kan du endda bede assistenten om at tale langsommere og dermed justere samtalens tempo naturligt.

Ud over Google selv er disse funktioner blevet stillet til rådighed for tredjeparter via Vertex AI og Gemini API'enså andre virksomheder kan skabe autonome agenter stemme, virtuelle receptionister eller assistanceværktøjer med samme niveau af stemmesofistikering.

Mere præcise eksterne funktioner og bedre bedømte modeller

Googles stemme-AI

Et af de områder, hvor Gemini 2.5 Flash Native Audio har gjort størst fremskridt, er i sin evne til at kald eksterne funktionerEnkelt sagt er modellen nu mere pålidelig, når det kommer til at træffe beslutninger. når du har brug for at konsultere tjenester eller data i realtidFor eksempel for at hente opdaterede oplysninger, kontrollere status for en ordre eller starte en automatiseret proces.

Eksklusivt indhold - Klik her  Sådan indsætter du en Google-tegning i Google Slides

Google påpeger, at denne øgede præcision resulterer i færre fejl ved udløsning af handlinger, hvilket reducerer akavede situationer, hvor assistenten fejler eller handler for tidligt. Systemet er i stand til indsæt de hentede data i lydsvaret uden at brugeren oplever pludselige afbrydelser i samtalen.

For at måle disse fremskridt har virksomheden udsat modellen for tests som f.eks. ComplexFuncBench Audio, en evalueringsbænk med fokus på flertrinsopgaver med begrænsninger. I dette scenarie har Gemini 2.5 Flash Native Audio opnået omkring en 71,5% succesrate i udførelse af komplekse funktioner, hvilket placerer den over tidligere iterationer og andre konkurrerende modeller i denne type anvendelse.

Denne ydeevne er især relevant i sammenhænge, ​​hvor der er behov for sofistikerede automatiserede arbejdsgange, såsom callcentre, teknisk support eller transaktionsbehandling (for eksempel økonomiske eller administrative opgaver), hvor hvert trin afhænger af det foregående, og der er ringe plads til fejl.

Bedre instruktionssporing og mere sammenhængende samtaletråde

Et andet fokuspunkt i opdateringen er på, hvordan modellen fortolke og respektere instruktionerne som den modtager fra både slutbrugere og udviklere. Ifølge data frigivet af Google er instruktionsoverholdelsesraten faldet fra 84 % til 90% overholdelseDet betyder svar, der er mere i overensstemmelse med, hvad der rent faktisk er blevet bedt om.

Dette spring er nøglen i opgaver, hvor det er påkrævet komplekse instruktioner, flere trin eller flere betingelserFor eksempel når man anmoder om en forklaring i en bestemt stil, anmoder om et resumé med bestemte tidsbegrænsninger eller opretter en arbejdsgang, der afhænger af flere sammenkædede beslutninger.

I forbindelse med dette har Gemini 2.5 Flash Native Audio fået muligheden for at Hent konteksten fra tidligere beskederI samtaler med flere vendinger husker modellen bedre, hvad der er blevet sagt, de nuancer, som brugeren har introduceret, og de rettelser, der er foretaget undervejs i dialogen.

Denne forbedring af samtalehukommelsen reducerer behovet for at gentage den samme information igen og igen og hjælper med at gøre interaktioner mere effektive. mere glat og mindre frustrerendeOplevelsen minder mere om at tale med en person, der fortsætter et emne, hvor de slap, i stedet for at starte forfra med hvert svar.

Brugsscenarier fra den virkelige verden: fra e-handel til finansielle tjenester

Ud over interne målinger bruger Google kundeeksempler til at illustrere den praktiske effekt af Gemini 2.5 Flash Native Audio. Inden for e-handelssektoren har Shopify indarbejdet disse funktioner i sin assistent. Sidekick", som hjælper detailhandlere med at administrere deres butikker og afklare tvivl om forretningen.

Eksklusivt indhold - Klik her  LinkedIn justerer sin AI: ændringer i privatliv, regioner og hvordan man deaktiverer den

Ifølge virksomheden er mange brugere De glemmer endda, at de taler med en AI Efter et par minutters samtale takkede brugeren endda botten efter en længere forespørgsel. Denne type reaktion antyder, at fremskridt inden for naturlighed og tone får teknologien til subtilt at træde i baggrunden.

I den finansielle sektor, udbyderen United Wholesale Mortgage (UWM) Den har integreret modellen i sin "Mia"-assistent for at styre realkreditrelaterede processer. Med kombinationen af ​​Gemini 2.5 og andre interne systemer hævder virksomheden at have behandlede mere end 14.000 lån for sine partnere, der er afhængige af automatiserede interaktioner, der kræver nøjagtighed og overholdelse af lovgivningen.

For sin del, startup'en Newo.ai Den bruger Gemini 2.5 Flash Native Audio via Vertex AI til at drive dens virtuelle receptionisterDisse stemmeassistenter er i stand til at identificere hovedtaleren selv i støjende omgivelser, skifte sprog midt i en samtale og opretholde et naturligt stemmeregister med følelsesmæssige nuancerhvilket er afgørende i kundeservice.

Stemme-til-stemme-oversættelse i realtid: flere sprog og flere nuancer

En af de mest slående tilføjelser i denne version er live stemme-til-stemme oversættelseGemini 2.5 Flash Native Audio, der oprindeligt blev integreret i Google Translate-appen, går ud over blot at konvertere lyd til tekst eller tilbyde fragmenterede oversættelser, hvilket muliggør en mere fordybende oplevelse. samtidig oversættelse tættere på menneskelig fortolkning.

Systemet kan fungere i tilstanden kontinuerlig lytningDette giver brugeren mulighed for at tage hovedtelefoner på og høre, hvad der sker omkring dem, oversat til deres sprog, uden at skulle sætte på pause eller trykke på knapper for hver sætning. Denne mulighed kan være nyttig, når man rejser, deltager i internationale møder eller ved arrangementer, hvor flere sprog er involveret.

Der er også taget hensyn til situationer med tovejssamtaleHvis den ene person for eksempel taler engelsk og den anden hindi, afspiller hovedtelefonerne den engelske oversættelse i realtid, mens telefonen afspiller den hindi-oversættelse, når den første person er færdig med at tale. Systemet skifter automatisk outputsproget afhængigt af, hvem der taler, uden at brugeren behøver at ændre indstillingerne mellem turene.

En af de mest relevante detaljer ved denne funktion er dens evne til at bevare den oprindelige intonation, rytme og tone fra taleren. Dette resulterer i oversættelser, der lyder mindre robotagtige og tættere på talerens stemmestil, hvilket gør dem lettere at forstå og oplevelsen mere naturlig.

Sprogunderstøttelse, automatisk detektion og støjfiltrering

Med hensyn til sprogligt omfang tilbyder Gemini 2.5-baseret stemmeoversættelse understøttelse af over 70 sprog og omkring 2.000 oversættelsesparVed at kombinere modellens verdenskendskab med dens flersprogede og indbyggede lydfunktioner kan den dække en bred vifte af sprogkombinationer, herunder mange, der ikke altid prioriteres af andre værktøjer.

Eksklusivt indhold - Klik her  De bedste tastaturgenveje i Grok Code Fast 1 til at programmere hurtigere

Systemet kan administrere flersproget indgang Inden for en enkelt session forstår den mere end ét sprog samtidigt, uden at brugeren manuelt skal justere indstillingerne, hver gang nogen skifter sprog. Denne funktion er især nyttig i samtaler, hvor flere sprog blandes naturligt.

Takket være automatisk detektion af talt sprogBrugeren behøver ikke at vide på forhånd, hvilket sprog deres samtalepartner kommunikerer på: modellen identificerer sproget og begynder at oversætte undervejs, hvilket reducerer friktion og mellemtrin.

Gemini 2.5 Flash Native Audio indeholder også mekanismer til robusthed mod støjDen er i stand til at filtrere noget af den omgivende lyd fra for at prioritere hovedstemmen, hvilket giver mulighed for mere behagelige samtaler på travle gader, åbne rum eller steder med baggrundsmusik.

Tilgængelighed, implementering og udsigter for Europa

Live stemmeoversættelse baseret på denne model er i øjeblikket tilgængelig i Betafase i Google Translate-appen til Android-enheder på markeder som USA, Mexico og Indien. Google har bekræftet, at tjenesten gradvist vil blive rullet ud til flere regioner og platforme, inklusive andre mobile systemer.

Parallelt hermed blev integrationen af ​​Gemini 2.5 Flash Native Audio i Gemini Live og søg Live Den rulles ud til brugere af Google-appen på Android og iOS, startende i USA. Efterhånden som disse funktioner modnes og består de indledende test- og tilpasningsfaser, forventes de også at komme til andre regioner. flere lande, formodentlig inklusive europæiske markeder, hvor efterspørgslen efter oversættelse og stemmeassistenter er særlig høj.

Google har også annonceret sin intention om at integrere denne tale- og oversættelsesoplevelse i andre produkter, herunder Gemini APII løbet af de kommende måneder og år vil dette åbne døren for europæiske virksomheder inden for sektorer som turisme, logistik, uddannelse og offentlig administration til direkte at integrere disse muligheder i deres egne tjenester.

Virksomheden præsenterer disse nye funktioner som en del af en bredere strategi, der skal gøre det muligt for udviklere at opbyg samtalemedarbejdere med naturlig stemme Fra nu af vil vi udnytte både Gemini 2.5 Flash Native Audio og andre modeller i 2.5 Flash- og Pro-familien, der er rettet mod mere kontrolleret stemmegenerering (justering af tone, intention, hastighed osv.) og rammer som f.eks. Agentic AI Foundation.

Med disse forbedringer forstærker Google ideen om, at stemme vil være en af ​​de vigtigste kanaler for interaktion med kunstig intelligens: fra assistenter, der håndterer kundeopkald og behandler komplekse operationer, til simultane oversættelsessystemer, der letter kommunikationen mellem mennesker, der ikke deler et sprog. Gemini 2.5 Flash Native Audio er kernen i denne bestræbelse og finjusterer både stemmeforståelse og udtryk. at gøre teknologien mere nyttig og mindre påtrængende i hverdagen, mens man venter på dens fulde udrulning i Europa og andre markeder.

Voice.ai vs ElevenLabs vs Udio: Hvilken lyder bedst?
relateret artikel:
Voice.ai vs ElevenLabs vs Udio: En komplet sammenligning af AI-stemmer