MAI-Voice-1 de Microsoft genera un minut de veu en menys d'un segon: així vol portar la locució “natural” a Copilot ia qualsevol app

Última actualització: 01/09/2025

  • Genera 1 minut d'àudio en menys d'1 segon amb una sola GPU
  • Veus naturals i expressives, fins i tot en escenaris amb diversos locutors
  • Disponible a Copilot Daily, Podcasts i proves a Copilot Labs
  • Aplicacions en narració, meditacions, atenció al client i més

Model de veu d'IA de Microsoft

Microsoft ha presentat MAI-Voice-1, un sistema de síntesi de veu que posa el focus a la rapidesa i en la qualitat de l'àudio. Pensat per integrar-se en productes i experiències del dia a dia, aquest motor de veu arriba amb ambicions clares: sonar natural, respondre en temps rècord i facilitar el desplegament sense un gran consum de còmput.

L'objectiu és que la veu sigui una interfície fluida per a assistents i continguts. En proves i demostracions públiques, el model destaca per la seva eficiència: és capaç de produir un minut complet de locució en menys dun segon, mantenint un timbre realista i controlat per a diferents estils de lectura.

MAI-Voice-1: veu natural i rendiment de vertigen

Tecnologia de síntesi de veu

La dada tècnica que crida més l'atenció és el rendiment d'inferència. El sistema genera 60 segons d'àudio en temps gairebé instantani usant una sola GPU, la qual cosa el converteix en una opció molt competitiva per a experiències que requereixen resposta immediata.

Contingut exclusiu - Clic Aquí  Tot sobre Click to Do: La innovació de Windows 11 per a la pantalla

La qualitat també és protagonista: el timbre, l'entonació i les pauses sonen expressius i creïbles, amb suport per a escenaris d'un o més locutors. Aquest equilibri entre fidelitat i velocitat resulta clau per a una veu sintètica que no distregui, sinó que acompanyi el contingut.

On es prova i quines eines ofereix

MAI-Voice-1 ja està integrat a Copilot Daily i Podcasts, on impulsa resums parlats i continguts generats al vol. Està disponible a més a Copilot Labs, l'entorn on Microsoft mostra novetats perquè qualsevol pugui experimentar-hi.

En aquest espai de proves, la companyia ofereix experiències de narració i parla expressiva orientades a explorar el potencial del model. Les demostracions permeten comprovar com respon la IA davant estils de lectura més emotius o més descriptius, i com manté la claredat fins i tot a gran velocitat.

Idees dús i escenaris

El ventall d aplicacions és ampli. Per narrar històries, audioguies o meditacions, l'expressivitat del model ajuda a transmetre intenció sense sonar robòtic, un requisit cada cop més valorat en continguts immersius.

Contingut exclusiu - Clic Aquí  Quins van ser els invents d'Alfred Nobel?

A nivell empresarial, la generació de locució pot agilitzar formació interna, atenció al client o peces multimèdia per a màrqueting. La velocitat de MAI-Voice-1 redueix temps de producció i facilita iterar fins a trobar el to adequat.

Una altra línia prometedora són els que requereixen latències molt baixes per sonar més naturals en viu. Amb un motor ràpid i mal·leable, resulta més senzill integrar la veu en fluxos interactius sense dependre de grans infraestructures.

Per què importa per a producte i costos

L'eficiència de còmput permet escalar sense disparar la despesa: poder operar amb una sola GPU rebaixa barreres d'entrada i obre la porta a pilots i desplegaments més accessibles, tant per a equips de producte com per a creadors independents.

Alhora, Microsoft subratlla la importància d'un disseny responsable en els sistemes de veu: l'expressivitat s'enfoca en la comprensió i la utilitat, sense atribuir-li sentiments ni intencions al model. En altres paraules, una veu convincent que no indueixi a pensar que hi ha una persona a l'altra banda.

Contingut exclusiu - Clic Aquí  Microsoft presenta Copilot Vision: la nova era de la navegació web assistida per IA

Amb aquesta proposta, MAI-Voice-1 apunta a convertir-se en una peça clau per experiències parlades de nova generació: ràpid, flexible i amb un àudio convincent, pensat per integrar-se sense fricció en productes on el temps de resposta i la qualitat marquen la diferència.