„Microsoft“ „MAI-Voice-1“ sukuria minutę balso per mažiau nei sekundę: taip siekiama „natūralaus“ balso perdavimą „Copilot“ ir bet kurioje programėlėje.

Paskutinis atnaujinimas: 2025-01-09

  • Sukurkite 1 minutės garso įrašą per mažiau nei 1 sekundę su vienu GPU
  • Natūralūs ir išraiškingi balsai, net ir esant keliems kalbėtojams
  • Pasiekiama „Copilot Daily“, tinklalaidėse ir bandomosiose versijose „Copilot Labs“ platformoje
  • Programėlės pasakojimams, meditacijai, klientų aptarnavimui ir kt.

„Microsoft“ dirbtinio intelekto balso modelis

„Microsoft“ pristatė „MAI-Voice-1“, kalbos sintezės sistema, orientuota į greitį ir garso kokybę. Šis balso variklis, sukurtas integruoti į kasdienius produktus ir patirtis, turi aiškių tikslų: sonar natural, reaguoti rekordiniu laiku ir palengvinti diegimą nenaudojant didelės skaičiavimo galios.

Tikslas – sukurti sklandžią balso sąsają asistentams ir turiniui. Testuose ir viešose demonstracijose modelis išsiskiria savo efektyvumu: geba sukurti visos minutės įgarsinimą per mažiau nei sekundę, išlaikant realistišką ir kontroliuojamą tembrą skirtingiems skaitymo stiliams.

MAI-Voice-1: natūralus balsas ir kvapą gniaužiantis atlikimas

Tecnología de síntesis de voz

Ryškiausias techninis duomenys yra jos išvadų darymo našumas. Sistema generuoja 60 sekundžių garso beveik akimirksniu naudojant vieną GPU, todėl tai labai konkurencingas pasirinkimas, kai reikia nedelsiant reaguoti į patirtis.

Išskirtinis turinys – spustelėkite čia  „Snap“ ir „Perplexity“ sudarę kelių milijonų dolerių vertės sandorį, perkelia dirbtinio intelekto tyrimus į „Snapchat“

Kokybė taip pat yra pagrindinis veiksnys: skamba tembras, intonacija ir pauzės išraiškingas ir įtikinamas, palaikant vieno arba kelių balsų scenarijus. Ši pusiausvyra tarp tikslumo ir greičio yra labai svarbi dirbtiniam balsui, kuris neblaško dėmesio, o lydi turinį.

Kur jis testuojamas ir kokius įrankius siūlo

„MAI-Voice-1“ dabar integruota į „Copilot Daily“ ir „Podcasts“., kur reklamuojamos balsu daromos santraukos ir momentiniu būdu generuojamas turinys. Taip pat galima įsigyti „Copilot Labs“, aplinka, kurioje „Microsoft“ demonstruoja naujas funkcijas, kad visi galėtų su jomis eksperimentuoti.

Šioje testavimo erdvėje įmonė siūlo pasakojimo ir išraiškingos kalbos patirtis, skirtas modelio potencialui ištirti. Demonstracijos leidžia išbandyti kaip reaguoja dirbtinis intelektas labiau emocingi arba labiau aprašomieji skaitymo stiliaiir kaip jis išlaiko aiškumą net ir dideliu greičiu.

Naudojimo idėjos ir scenarijai

Taikymo spektras yra platus. Už pasakojimai, garso gidai arba meditacijosmodelio išraiškingumas padeda perteikti ketinimą neskambant robotiškai – šis reikalavimas vis labiau vertinamas įtraukiančio turinio srityje.

Išskirtinis turinys – spustelėkite čia  „ChatGPT for Mac“ pristato debesijos integraciją ir naujas pažangias funkcijas

Verslo srityje įgarsinimo generavimas gali paspartėti vidiniai mokymai, klientų aptarnavimas arba multimedijos kūrinius rinkodarai. „MAI-Voice-1“ greitis sutrumpina gamybos laiką ir palengvina iteraciją, kol rasite tinkamą toną.

Kita perspektyvi linija yra ta, kuri reikalauja labai mažo vėlavimo, kad gyvai skambėtų natūraliauSu greitu ir lanksčiu varikliu, Balsą lengviau integruoti į interaktyvius srautus, nenaudojant didelių infrastruktūrų..

Kodėl tai svarbu produktui ir kainoms

Skaičiavimo efektyvumas leidžia keisti mastelį nedidinant išlaidų: galima veikti su vienu GPU Tai sumažina kliūtis patekti į rinką ir atveria duris prieinamesniems bandomiesiems projektams ir diegimams tiek produktų komandoms, tiek nepriklausomiems kūrėjams.

Tuo pačiu metu „Microsoft“ pabrėžia atsakingo dizaino svarbą savo balso sistemose: išraiškingumas orientuotas į supratimą ir naudingumą, nepriskiriant tam jausmų ar ketinimų modeliui. Kitaip tariant, įtikinantis balsas, kuris neleidžia manyti, kad kitame gale yra žmogus.

Išskirtinis turinys – spustelėkite čia  Ką „OpenAI“ veikia be „ChatGPT“?

Šiuo pasiūlymu MAI-Voice-1 siekia tapti pagrindine dalimi naujos kartos kalbėjimo patirtys: Greitas, lankstus ir su patraukliu garsu, sukurti taip, kad sklandžiai integruotųsi į produktus, kuriuose svarbiausia yra reakcijos laikas ir kokybė.