Gemini 2.5 Flash Native Audio: ecco come cambia la voce AI di Google

Ultimo aggiornamento: 15/12/2025

  • Gemini 2.5 Flash Native Audio migliora la naturalezza, la precisione e la fluidità delle conversazioni vocali grazie all'intelligenza artificiale di Google.
  • Il modello perfeziona le chiamate alle funzioni esterne, segue meglio le istruzioni complesse e mantiene meglio il contesto nei dialoghi lunghi.
  • Incorpora la traduzione vocale in tempo reale, con supporto per oltre 70 lingue e 2.000 coppie di traduzione, preservando l'intonazione e il ritmo.
  • È già integrato in Google AI Studio, Vertex AI, Gemini Live e Search Live e viene implementato nei prodotti Google e di terze parti.

Gemini 2.5 Flash Native Audio

Google ha compiuto un altro passo nell'evoluzione del suo ecosistema di intelligenza artificiale con un importante aggiornamento Gemini 2.5 Flash Native AudioIl modello è progettato per comprendere e generare audio in tempo reale. Questa tecnologia è pensata per rendere le interazioni vocali più efficaci. più vicino a una conversazione umanasia nella vita quotidiana che in ambito professionale.

Lungi dal semplice "dare voce" alle risposte di un assistente, e rispetto ad altre opzioni in confronti dell'intelligenza artificiale vocaleQuesto modello è progettato per per sostenere dialoghi naturali, funzionali e contestuali, prendere decisioni su quando cercare informazioni aggiuntive e gestire istruzioni complesse senza interrompere il flusso della conversazioneCon questo, Google rafforza il suo impegno nel considerare la voce il mezzo principale di interazione con i suoi servizi di intelligenza artificiale.

Che cos'è Gemini 2.5 Flash Native Audio e dove viene utilizzato?

Gemini 2.5 Flash Native Audio è l'ultima versione del modello audio nativo di Google, in grado di ascoltare, comprendere e rispondere a voce in tempo reale. A differenza dei precedenti sistemi incentrati esclusivamente sulla sintesi vocale, questo motore è progettato per gestire l'audio sia in ingresso che in uscita contemporaneamente, il che lo rende particolarmente adatto agli assistenti conversazionali.

L'azienda ha già integrato questa versione in molte delle sue piattaforme principali: Google AI Studio, Vertex AI, Gemini Live e Search LiveCiò significa che sia gli sviluppatori che le aziende possono iniziare a costruire agenti vocali avanzati sulla stessa tecnologia che alimenta le ultime esperienze di intelligenza artificiale conversazionale di Google.

In pratica, gli utenti noteranno questi cambiamenti in esperienze come Gemelli in diretta (la modalità di conversazione vocale con l'assistente) o in Cerca dal vivo all'interno della modalità AI dell'app Google, dove le risposte vocali suonano più espressivo, più chiaro e meglio contestualizzatoInoltre, puoi anche chiedere all'assistente di parlare più lentamente, adattando il ritmo della conversazione in modo naturale.

Oltre a Google stessa, queste capacità sono state rese disponibili a terze parti tramite Vertex AI e l'API Geminiin modo che altre aziende possano creare agenti autonomi voce, receptionist virtuali o strumenti di assistenza con lo stesso livello di sofisticatezza vocale.

Funzioni esterne più precise e modelli meglio valutati

L'intelligenza artificiale vocale di Google

Uno degli ambiti in cui Gemini 2.5 Flash Native Audio ha fatto i maggiori progressi è nella sua capacità di chiamare funzioni esterneIn parole povere, il modello è ora più affidabile quando si tratta di prendere decisioni. quando hai bisogno di consultare servizi o dati in tempo realeAd esempio, per recuperare informazioni aggiornate, controllare lo stato di un ordine o avviare un processo automatizzato.

Contenuti esclusivi: clicca qui  Come inserire un disegno Google in Presentazioni Google

Google sottolinea che questa maggiore precisione si traduce in meno errori nell'attivazione delle azioni, riducendo le situazioni imbarazzanti in cui l'assistente non riesce a rispondere o agisce prematuramente. Il sistema è in grado di inserire i dati recuperati nella risposta audio senza che l'utente percepisca brusche interruzioni nella conversazione.

Per misurare questi progressi, l'azienda ha sottoposto il modello a test quali ComplexFuncBench Audio, un banco di valutazione focalizzato su attività multifase con vincoli. In questo scenario, Gemini 2.5 Flash Native Audio ha raggiunto circa un Tasso di successo del 71,5% nell'esecuzione di funzioni complesse, posizionandolo al di sopra delle iterazioni precedenti e di altri modelli concorrenti in questo tipo di utilizzo.

Questa prestazione è particolarmente rilevante nei contesti in cui sono necessari flussi di lavoro automatizzati sofisticati, come call center, supporto tecnico o elaborazione delle transazioni (ad esempio, compiti finanziari o amministrativi) in cui ogni passaggio dipende dal precedente e c'è poco margine di errore.

Un migliore monitoraggio delle istruzioni e thread di conversazione più coerenti

Un altro focus dell'aggiornamento è su come il modello interpretare e rispettare le istruzioni che riceve sia dagli utenti finali che dagli sviluppatori. Secondo i dati pubblicati da Google, il tasso di conformità alle istruzioni è sceso dall'84% a Aderenza al 90%Ciò significa risposte più in linea con quanto effettivamente richiesto.

Questo salto è fondamentale nei compiti in cui è richiesto istruzioni complesse, più passaggi o più condizioniAd esempio, quando si richiede una spiegazione in uno stile specifico, si chiede un riepilogo con determinati vincoli di tempo o si imposta un flusso di lavoro che dipende da diverse decisioni collegate.

In relazione a ciò, Gemini 2.5 Flash Native Audio ha acquisito la capacità di Recupera il contesto dei messaggi precedentiNelle conversazioni multi-turn, il modello ricorda meglio ciò che è stato detto, le sfumature introdotte dall'utente e le correzioni apportate durante il dialogo.

Questo miglioramento nella memoria conversazionale riduce la necessità di ripetere le stesse informazioni più e più volte e contribuisce a rendere le interazioni più efficaci. più fluido e meno frustranteL'esperienza è più simile a quella di parlare con una persona che riprende un argomento da dove lo aveva lasciato, piuttosto che ricominciare da zero con ogni risposta.

Casi d'uso reali: dall'e-commerce ai servizi finanziari

Oltre alle metriche interne, Google si basa su esempi concreti dei clienti per illustrare l'impatto pratico di Gemini 2.5 Flash Native Audio. Nel settore dell'e-commerce, Shopify ha integrato queste funzionalità nel suo assistente. Sidekick", che aiuta i rivenditori a gestire i propri negozi e a risolvere dubbi sull'attività.

Contenuti esclusivi: clicca qui  LinkedIn modifica la sua intelligenza artificiale: modifiche alla privacy, regioni e come disattivarla

Secondo l'azienda, molti utenti Si dimenticano persino di parlare con un'intelligenza artificiale Dopo alcuni minuti di conversazione, l'utente ha persino ringraziato il bot dopo una lunga richiesta. Questo tipo di reazione suggerisce che i progressi in termini di naturalezza e tono stanno facendo sì che la tecnologia passi in secondo piano.

Nel settore finanziario, il fornitore United Wholesale Mortgage (UWM) Ha integrato il modello nel suo assistente "Mia" per gestire i processi relativi ai mutui. Grazie alla combinazione di Gemini 2.5 e di altri sistemi interni, l'azienda afferma di aver elaborati più di 14.000 prestiti per i suoi partner, basandosi su interazioni automatizzate che richiedono accuratezza e conformità normativa.

Da parte sua, la startup Nuovo.ai Utilizza Gemini 2.5 Flash Native Audio tramite Vertex AI per alimentare il suo receptionist virtualiQuesti assistenti vocali sono in grado di identificare l'interlocutore principale anche in ambienti rumorosi, di cambiare lingua durante la conversazione e di mantenere un registro vocale naturale con sfumature emotiveche è fondamentale nel servizio clienti.

Traduzione vocale in tempo reale: più lingue e più sfumature

Una delle aggiunte più sorprendenti in questa versione è la traduzione vocale dal vivoInizialmente integrato nell'app Google Translate, Gemini 2.5 Flash Native Audio va oltre la semplice conversione dell'audio in testo o l'offerta di traduzioni frammentate, consentendo un'esperienza più coinvolgente. Traduzione simultanea più vicino all'interpretazione umana.

Il sistema può funzionare in modalità di ascolto continuoCiò consente all'utente di indossare le cuffie e ascoltare ciò che accade intorno a lui tradotto nella propria lingua, senza dover mettere in pausa o premere pulsanti per ogni frase. Questa opzione può essere utile quando si viaggia, si partecipa a meeting internazionali o a eventi che coinvolgono più lingue.

Sono state prese in considerazione anche situazioni di conversazione bidirezionaleAd esempio, se una persona parla in inglese e l'altra in hindi, le cuffie riproducono la traduzione in inglese in tempo reale, mentre il telefono riproduce la traduzione in hindi una volta che la prima persona ha finito di parlare. Il sistema cambia automaticamente la lingua di output a seconda di chi sta parlando, senza che l'utente debba modificare le impostazioni tra un turno e l'altro.

Uno dei dettagli più rilevanti di questa funzione è la sua capacità di preservare l'intonazione, il ritmo e il tono originali dall'oratore. Ciò si traduce in traduzioni che suonano meno robotiche e più vicine allo stile vocale dell'oratore, rendendole più facili da comprendere e l'esperienza più naturale.

Supporto linguistico, rilevamento automatico e filtraggio del rumore

In termini di ambito linguistico, la traduzione vocale basata su Gemini 2.5 offre supporto per oltre 70 lingue e circa 2.000 coppie di traduzioneCombinando la conoscenza del mondo del modello con le sue capacità audio multilingue e native, è possibile coprire un'ampia gamma di combinazioni linguistiche, comprese molte che non sono sempre considerate prioritarie da altri strumenti.

Contenuti esclusivi: clicca qui  Le migliori scorciatoie da tastiera in Grok Code Fast 1 per programmare più velocemente

Il sistema può gestire voce multilingue In una singola sessione, comprende più lingue contemporaneamente, senza richiedere all'utente di regolare manualmente le impostazioni ogni volta che si cambia lingua. Questa funzione è particolarmente utile nelle conversazioni in cui diverse lingue vengono mescolate naturalmente.

Grazie alla rilevamento automatico del linguaggio parlatoL'utente non ha bisogno di sapere in anticipo in quale lingua sta comunicando il suo interlocutore: il modello identifica la lingua e inizia a tradurre al volo, riducendo attriti e passaggi intermedi.

Gemini 2.5 Flash Native Audio incorpora anche meccanismi per robustezza contro il rumoreÈ in grado di filtrare parte dei suoni ambientali per dare priorità alla voce principale, consentendo conversazioni più confortevoli in strade trafficate, spazi aperti o luoghi con musica di sottofondo.

Disponibilità, implementazione e prospettive per l'Europa

La traduzione vocale in tempo reale basata su questo modello è attualmente disponibile in fase beta nell'app Google Translate per dispositivi Android in mercati come Stati Uniti, Messico e India. Google ha confermato che il servizio verrà progressivamente implementato più regioni e piattaforme, compresi altri sistemi mobili.

Parallelamente, l'integrazione di Gemini 2.5 Flash Native Audio in Gemini Live e Search Live Verrà distribuito agli utenti dell'app Google su Android e iOS, a partire dagli Stati Uniti. Man mano che queste funzionalità saranno mature e supereranno le fasi iniziali di test e adattamento, si prevede che arriveranno anche in altre regioni. più paesi, presumibilmente compresi i mercati europei, dove la domanda di traduzione e assistenti vocali è particolarmente elevata.

Google ha inoltre annunciato l'intenzione di incorporare questa esperienza vocale e di traduzione in altri prodotti, tra cui API GemelliNei prossimi mesi e anni, ciò aprirà le porte alle aziende europee di settori quali il turismo, la logistica, l'istruzione e la pubblica amministrazione, che potranno integrare direttamente queste capacità nei propri servizi.

L'azienda presenta queste nuove funzionalità come parte di una strategia più ampia per consentire agli sviluppatori di creare agenti conversazionali con voce naturale D'ora in poi, sfruttando sia Gemini 2.5 Flash Native Audio che altri modelli della famiglia 2.5 Flash e Pro orientati verso una generazione vocale più controllata (regolazione del tono, dell'intenzione, della velocità, ecc.) e frame come Fondazione Agentic AI.

Con questa serie di miglioramenti, Google rafforza l'idea che la voce sarà uno dei principali canali di interazione con l'intelligenza artificiale: dagli assistenti che gestiscono le chiamate dei clienti ed elaborano operazioni complesse, ai sistemi di traduzione simultanea che facilitano la comunicazione tra persone che non condividono una lingua. Gemini 2.5 Flash Native Audio è il cuore di questo progetto, ottimizzando sia la comprensione che l'espressione vocale. per rendere la tecnologia più utile e meno invasiva nella vita di tutti i giorni, in attesa della sua piena diffusione in Europa e in altri mercati.

Voice.ai vs ElevenLabs vs Udio: quale suona meglio?
Articolo correlato:
Voice.ai vs ElevenLabs vs Udio: un confronto completo delle voci AI