Il-MAI-Voice-1 ta' Microsoft jiġġenera minuta ta' vuċi f'inqas minn sekonda: hekk qed jimmira li jġib voiceover "naturali" lil Copilot u kwalunkwe app.

L-aħħar aġġornament: 01/09/2025

  • Iġġenera minuta ta' awdjo f'inqas minn sekonda b'GPU waħda
  • Vuċijiet naturali u espressivi, anke f'xenarji b'ħafna kelliema
  • Disponibbli fuq Copilot Daily, Podcasts, u provi f'Copilot Labs
  • Applikazzjonijiet għar-rakkont ta' stejjer, meditazzjoni, servizz tal-konsumatur, u aktar

Mudell tal-Vuċi tal-AI ta' Microsoft

Microsoft introduċiet MAI-Voice-1, sistema ta' sinteżi tad-diskors li tiffoka fuq il-veloċità u l-kwalità tal-awdjo. Iddisinjata biex tiġi integrata fi prodotti u esperjenzi ta' kuljum, din il-magna tal-vuċi tasal b'ambizzjonijiet ċari: ħoss naturali, jirrispondu fi żmien rekord u jiffaċilitaw l-iskjerament mingħajr qawwa kompjuterizzata sinifikanti.

L-għan huwa li l-vuċi ssir interfaċċja fluwida għall-assistenti u l-kontenut. Fit-testijiet u d-dimostrazzjonijiet pubbliċi, il-mudell jispikka għall-effiċjenza tiegħu: kapaċi jipproduċi minuta sħiħa ta' voiceover f'inqas minn sekonda, iż-żamma ta' timbru realistiku u kkontrollat ​​għal stili ta' qari differenti.

MAI-Voice-1: Vuċi naturali u prestazzjoni impressjonanti

Teknoloġija tas-sintesi tad-diskors

L-aktar dejta teknika impressjonanti hija l-prestazzjoni tal-inferenza tagħha. Is-sistema tiġġenera 60 sekonda ta' awdjo fi żmien kważi istantanju bl-użu ta' GPU waħda, u b'hekk hija għażla kompetittiva ħafna għal esperjenzi li jeħtieġu rispons immedjat.

Kontenut esklussiv - Ikklikkja Hawnhekk  Kollha dwar Ikklikkja biex Tagħmel: L-innovazzjoni tal-Windows 11 għall-iskrin tiegħek

Il-kwalità hija wkoll protagonista: it-timbru, l-intonazzjoni u l-pawżi jinstemgħu espressiv u kredibbli, b'appoġġ għal xenarji b'vuċi waħda jew b'ħafna vuċijiet. Dan il-bilanċ bejn il-fedeltà u l-veloċità huwa essenzjali għal vuċi sintetika li ma tfixkilx, iżda pjuttost takkumpanja l-kontenut.

Fejn jiġi ttestjat u liema għodod joffri

MAI-Voice-1 issa huwa integrat f'Copilot Daily u Podcasts, fejn jippromwovi sommarji mitkellma u kontenut iġġenerat immedjatament. Huwa disponibbli wkoll f'Copilot Labs, l-ambjent fejn Microsoft turi karatteristiċi ġodda sabiex kulħadd ikun jista' jesperimenta bihom.

F'dan l-ispazju ta' ttestjar, il-kumpanija toffri esperjenzi ta' rakkont ta' stejjer u diskors espressiv immirati lejn l-esplorazzjoni tal-potenzjal tal-mudell. Id-dimostrazzjonijiet jippermettulek tittestja kif l-AI tirrispondi għal stili ta' qari aktar emozzjonali jew aktar deskrittivi, u kif iżżomm iċ-ċarezza anke b'veloċitajiet għoljin.

Ideat u xenarji ta' użu

Il-firxa ta' applikazzjonijiet hija wiesgħa. Għal rakkont ta’ stejjer, gwidi awdjo jew meditazzjonijiet, l-espressività tal-mudell tgħin biex twassal l-intenzjoni mingħajr ma tinstema' robotika, rekwiżit li qed jiġi apprezzat dejjem aktar fil-kontenut immersiv.

Kontenut esklussiv - Ikklikkja Hawnhekk  X'kienu l-invenzjonijiet ta' Alfred Nobel?

Fil-qasam tan-negozju, il-ġenerazzjoni tal-voiceover tista' titħaffef taħriġ intern, servizz tal-konsumatur jew biċċiet multimedjali għall-kummerċjalizzazzjoni. Il-veloċità ta' MAI-Voice-1 tnaqqas il-ħinijiet tal-produzzjoni u tagħmilha aktar faċli biex tirrepeti sakemm issib it-ton it-tajjeb.

Linja promettenti oħra hija dik li jeħtieġu latenzi baxxi ħafna biex jinstemgħu aktar naturali liveB'magna veloċi u malleabbli, Huwa aktar faċli li tintegra l-vuċi fi flussi interattivi mingħajr ma tiddependi fuq infrastrutturi kbar.

Għaliex huwa importanti għall-prodott u l-ispejjeż

Effiċjenza tal-kompjuters jippermetti l-iskalar mingħajr ma jiżdiedu l-ispejjeż: il-kapaċità li jopera b'GPU waħda Tnaqqas l-ostakli għad-dħul u tiftaħ il-bieb għal proġetti pilota u skjeramenti aktar aċċessibbli, kemm għat-timijiet tal-prodott kif ukoll għall-ħallieqa indipendenti.

Fl-istess ħin, Microsoft tenfasizza l-importanza ta’ disinn responsabbli fis-sistemi tal-vuċi tagħha: l-espressività tiffoka fuq il-fehim u l-utilità, mingħajr ma tattribwixxi sentimenti jew intenzjonijiet lilha lill-mudell. Fi kliem ieħor, vuċi konvinċenti li ma twassalx biex wieħed jemmen li hemm persuna fuq in-naħa l-oħra.

Kontenut esklussiv - Ikklikkja Hawnhekk  Microsoft tippreżenta Copilot Vision: l-era l-ġdida tal-ibbrawżjar tal-web assistit mill-AI

B'din il-proposta, MAI-Voice-1 għandha l-għan li ssir biċċa ewlenija għal esperjenzi mitkellma tal-ġenerazzjoni li jmiss: Veloċi, flessibbli, u b'awdjo konvinċenti, iddisinjat biex jintegra bla xkiel fi prodotti fejn il-ħin tar-rispons u l-kwalità jagħmlu d-differenza.