Gemini 2.5 Flash Native Audio: Iată cum se schimbă vocea AI a Google

Ultima actualizare: 15/12/2025

  • Gemini 2.5 Flash Native Audio îmbunătățește naturalețea, acuratețea și fluiditatea conversațiilor vocale cu ajutorul inteligenței artificiale de la Google.
  • Modelul rafinează apelurile către funcții externe, urmează mai bine instrucțiunile complexe și menține mai bine contextul în dialogurile lungi.
  • Încorporează traducere voce-voce în timp real, cu suport pentru peste 70 de limbi și 2.000 de perechi de traduceri, păstrând intonația și ritmul.
  • Este deja integrat în Google AI Studio, Vertex AI, Gemini Live și Search Live și este implementat în produse Google și terțe.

Gemini 2.5 Flash Native Audio

Google a făcut încă un pas în evoluția ecosistemului său de inteligență artificială cu o actualizare majoră. Gemini 2.5 Flash Native AudioModelul este conceput pentru a înțelege și genera sunet în timp real. Această tehnologie este orientată spre creșterea eficienței interacțiunilor vocale. mai aproape de o conversație umanăatât în ​​viața de zi cu zi, cât și în mediile profesionale.

Departe de a „pune pur și simplu o voce” răspunsurilor unui asistent și în comparație cu alte opțiuni din comparații cu inteligența artificială vocalăAcest model este conceput pentru pentru a menține dialoguri naturale, funcționale și contextuale, luarea deciziilor cu privire la momentul solicitării de informații suplimentare și gestionarea instrucțiunilor complexe fără a întrerupe fluxul conversațieiPrin aceasta, Google își consolidează angajamentul față de voce ca principal mijloc de interacțiune cu serviciile sale de inteligență artificială.

Ce este Gemini 2.5 Flash Native Audio și unde este utilizat?

Gemini 2.5 Flash Native Audio este cea mai recentă versiune a modelului audio nativ de la Google, capabilă de ascultă, înțelege și răspunde cu voce tare în timp real. Spre deosebire de sistemele anterioare axate exclusiv pe sinteza vocală, acest motor este conceput să funcționeze simultan cu sunet atât ca intrare, cât și ca ieșire, fiind deosebit de potrivit pentru asistenții conversaționali.

Compania a integrat deja această versiune în mai multe dintre platformele sale cheie: Google AI Studio, Vertex AI, Gemini Live și Search LiveAceasta înseamnă că atât dezvoltatorii, cât și companiile pot începe să construiască agenți vocali avansați pe aceeași tehnologie care alimentează cele mai recente experiențe conversaționale de inteligență artificială de la Google.

În practică, utilizatorii vor observa aceste schimbări în experiențe precum Gemeni Live (modul de conversație vocală cu asistentul) sau în Căutare live în modul AI al aplicației Google, unde răspunsurile rostite sună mai expresiv, mai clar și mai bine contextualizatÎn plus, poți chiar să-i ceri asistentului să vorbească mai încet, ajustând ritmul conversației în mod natural.

Dincolo de Google, aceste capacități au fost puse la dispoziția unor terțe părți prin intermediul Vertex AI și API-ul Geminiastfel încât alte companii să poată crea agenţi autonomi voce, recepționeri virtuali sau instrumente de asistență cu același nivel de sofisticare vocală.

Funcții externe mai precise și modele mai bine cotate

Inteligența artificială vocală de la Google

Unul dintre domeniile în care Gemini 2.5 Flash Native Audio a înregistrat cele mai mari progrese este capacitatea sa de a apelează funcții externeÎn termeni simpli, modelul este acum mai fiabil când vine vorba de luarea deciziilor. când trebuie să consultați servicii sau date în timp realDe exemplu, pentru a recupera informații actualizate, a verifica starea unei comenzi sau a lansa un proces automat.

Conținut exclusiv - Faceți clic aici  Cum să puneți un desen Google în Google Slides

Google subliniază că această precizie suplimentară se traduce prin mai puține erori la declanșarea acțiunilor, reducând situațiile jenante în care asistentul dă greș sau acționează prematur. Sistemul este capabil să introduceți datele preluate în răspunsul audio fără ca utilizatorul să observe întreruperi bruște în conversație.

Pentru a măsura aceste progrese, compania a supus modelul unor teste precum ComplexFuncBench Audio, un banc de evaluare axat pe sarcini în mai multe etape cu constrângeri. În acest scenariu, Gemini 2.5 Flash Native Audio a realizat aproximativ Rată de succes de 71,5% în executarea funcțiilor complexe, plasându-l deasupra iterațiilor anterioare și a altor modele concurente în acest tip de utilizare.

Această performanță este relevantă în special în contexte în care sunt necesare fluxuri de lucru automatizate sofisticate, cum ar fi centre de apeluri, asistență tehnică sau procesare a tranzacțiilor (de exemplu, sarcini financiare sau administrative) unde fiecare pas depinde de precedentul și există puțin loc de eroare.

O mai bună urmărire a instrucțiunilor și fire de conversație mai coerente

Un alt punct central al actualizării este modul în care modelul interpretează și respectă instrucțiunile pe care le primește atât de la utilizatorii finali, cât și de la dezvoltatori. Conform datelor publicate de Google, rata de conformitate cu instrucțiunile a scăzut de la 84% la 90% aderențăAsta înseamnă răspunsuri care sunt mai în concordanță cu ceea ce s-a cerut de fapt.

Acest salt este esențial în sarcinile în care este necesar instrucțiuni complexe, pași multipli sau condiții multipleDe exemplu, atunci când se solicită o explicație într-un anumit stil, se solicită un rezumat cu anumite constrângeri de timp sau se configurează un flux de lucru care depinde de mai multe decizii legate între ele.

În legătură cu aceasta, Gemini 2.5 Flash Native Audio a dobândit capacitatea de a Recuperează contextul mesajelor anterioareÎn conversațiile cu mai multe ture de vorbire, modelul își amintește mai bine ce s-a spus, nuanțele introduse de utilizator și corecturile făcute pe parcursul dialogului.

Această îmbunătățire a memoriei conversaționale reduce nevoia de a repeta aceleași informații iar și iar și contribuie la creșterea eficienței interacțiunilor. mai lin și mai puțin frustrantExperiența este mai apropiată de a vorbi cu o persoană care reia un subiect de unde a rămas, decât să o ia de la capăt cu fiecare răspuns.

Cazuri de utilizare în lumea reală: de la comerțul electronic la serviciile financiare

Dincolo de valorile interne, Google se bazează pe exemple de la clienți pentru a ilustra impactul practic al Gemini 2.5 Flash Native Audio. În sectorul comerțului electronic, Shopify a încorporat aceste capabilități în asistentul său. Sidekick„, care ajută comercianții cu amănuntul să își gestioneze magazinele și să clarifice îndoielile legate de afacere.”

Conținut exclusiv - Faceți clic aici  LinkedIn își ajustează inteligența artificială: modificări ale confidențialității, regiuni și cum să o dezactivați

Potrivit companiei, mulți utilizatori Chiar uită că vorbesc cu o inteligență artificială. După câteva minute de conversație, utilizatorul chiar i-a mulțumit botului după o lungă solicitare. Acest tip de reacție sugerează că progresele în materie de naturalețe și ton fac ca tehnologia să treacă subtil pe plan secund.

În sectorul financiar, furnizorul United Wholesale Mortgage (UWM) Compania a integrat modelul în asistentul său „Mia” pentru a gestiona procesele legate de creditele ipotecare. Prin combinarea Gemini 2.5 cu alte sisteme interne, compania susține că a... a procesat peste 14.000 de împrumuturi pentru partenerii săi, bazându-se pe interacțiuni automatizate care necesită acuratețe și conformitate cu reglementările.

La rândul său, startup-ul Newo.ai Folosește Gemini 2.5 Flash Native Audio prin Vertex AI pentru a-și alimenta... recepționiste virtualeAcești asistenți vocali sunt capabili să identifice vorbitorul principal chiar și în medii zgomotoase, să schimbe limbile în timpul conversației și să mențină... un registru vocal natural cu nuanțe emoționaleceea ce este crucial în serviciul clienților.

Traducere voce-voce în timp real: mai multe limbi și mai multe nuanțe

Una dintre cele mai remarcabile completări ale acestei versiuni este traducere voce-voce în directIntegrată inițial în aplicația Google Translate, Gemini 2.5 Flash Native Audio depășește simpla conversie a sunetului în text sau oferirea de traduceri fragmentate, permițând o experiență mai captivantă. traducere simultana mai aproape de interpretarea umană.

Sistemul poate funcționa în modul de ascultare continuăAcest lucru permite utilizatorului să își pună căști și să audă ce se întâmplă în jurul său tradus în limba sa, fără a fi nevoie să pună pauză sau să apese butoane pentru fiecare frază. Această opțiune poate fi utilă atunci când călătorești, participi la întâlniri internaționale sau la evenimente în care sunt implicate mai multe limbi.

De asemenea, s-au luat în considerare situațiile de conversație bidirecționalăDe exemplu, dacă o persoană vorbește în engleză, iar cealaltă în hindi, căștile redau traducerea în engleză în timp real, în timp ce telefonul redă traducerea în hindi odată ce prima persoană termină de vorbit. Sistemul schimbă automat limba de ieșire în funcție de cine vorbește, fără ca utilizatorul să fie nevoit să modifice setările între rânduri.

Unul dintre cele mai relevante detalii ale acestei funcții este capacitatea sa de a păstrează intonația, ritmul și tonul original de la vorbitor. Acest lucru duce la traduceri care sună mai puțin robotic și mai apropiat de stilul vocal al vorbitorului, ceea ce le face mai ușor de înțeles și experiența mai naturală.

Suport lingvistic, detectare automată și filtrare a zgomotului

În ceea ce privește domeniul de aplicare lingvistic, traducerea vocală bazată pe Gemini 2.5 oferă suport pentru peste 70 de limbi și aproximativ 2.000 de perechi de traduceriCombinând cunoștințele despre lume ale modelului cu capacitățile sale audio native și multilingve, acesta poate acoperi o gamă largă de combinații lingvistice, inclusiv multe care nu sunt întotdeauna prioritizate de alte instrumente.

Conținut exclusiv - Faceți clic aici  Cele mai bune scurtături de la tastatură din Grok Code Fast 1 pentru a programa mai rapid

Sistemul poate gestiona intrare multilingvă Într-o singură sesiune, înțelege mai multe limbi simultan, fără a fi nevoie ca utilizatorul să ajusteze manual setările de fiecare dată când cineva schimbă limba. Această funcție este utilă în special în conversațiile în care mai multe limbi sunt amestecate în mod natural.

Datorită detectarea automată a limbajului vorbitUtilizatorul nu trebuie să știe în avans în ce limbă comunică interlocutorul său: modelul identifică limba și începe să traducă din mers, reducând frecvențele și etapele intermediare.

Gemini 2.5 Flash Native Audio încorporează, de asemenea, mecanisme pentru robustețe la zgomotEste capabil să filtreze o parte din sunetul ambiental pentru a prioritiza vocea principală, permițând conversații mai confortabile pe străzi aglomerate, spații deschise sau locuri cu muzică de fundal.

Disponibilitate, implementare și perspective pentru Europa

Traducerea vocală în direct bazată pe acest model este disponibilă în prezent în faza beta în aplicația Google Translate pentru dispozitive Android pe piețe precum Statele Unite, Mexic și India. Google a confirmat că serviciul va fi implementat progresiv pe mai multe regiuni și platforme, inclusiv alte sisteme mobile.

În paralel, integrarea Gemini 2.5 Flash Native Audio în Gemeni Live și Căutare Live Este lansată pentru utilizatorii aplicației Google pe Android și iOS, începând din Statele Unite. Pe măsură ce aceste funcții se maturizează și trec de fazele inițiale de testare și adaptare, se așteaptă ca acestea să ajungă și în alte regiuni. mai multe țări, probabil inclusiv piețele europene, unde cererea de asistenți vocali și de traducere este deosebit de mare.

Google și-a anunțat, de asemenea, intenția de a încorpora această experiență vocală și de traducere în alte produse, inclusiv în Gemini APIÎn lunile și anii următori, acest lucru ar deschide ușa pentru companiile europene din sectoare precum turismul, logistica, educația și administrația publică pentru a integra direct aceste capabilități în propriile servicii.

Compania prezintă aceste noi funcții ca parte a unei strategii mai ample care să permită dezvoltatorilor să construiește agenți conversaționali cu voce naturală De acum înainte, profitând atât de Gemini 2.5 Flash Native Audio, cât și de alte modele din familia 2.5 Flash și Pro, orientate către o generare vocală mai controlată (ajustarea tonului, intenției, vitezei etc.) și a cadrelor precum Fundația Agentic AI.

Cu acest set de îmbunătățiri, Google întărește ideea că vocea va fi unul dintre principalele canale de interacțiune cu inteligența artificială: de la asistenți care gestionează apelurile clienților și procesează operațiuni complexe, până la sisteme de traducere simultană care facilitează comunicarea între persoane care nu vorbesc aceeași limbă. Tehnologia Gemini 2.5 Flash Native Audio este în centrul acestui demers, reglând fin atât înțelegerea, cât și exprimarea vocii. pentru a face tehnologia mai utilă și mai puțin intruzivă în viața de zi cu zi, în așteptarea implementării sale complete în Europa și pe alte piețe.

Voice.ai vs ElevenLabs vs Udio: Care sună mai bine?
Articol asociat:
Voice.ai vs ElevenLabs vs Udio: O comparație completă a vocilor bazate pe inteligență artificială