- تولید یک دقیقه صدا در کمتر از ۱ ثانیه با یک پردازنده گرافیکی
- صداهای طبیعی و رسا، حتی در سناریوهایی با چندین گوینده
- موجود در Copilot Daily، پادکستها و نسخههای آزمایشی در Copilot Labs
- اپلیکیشنهایی برای قصهگویی، مدیتیشن، خدمات مشتری و موارد دیگر

مایکروسافت MAI-Voice-1 را معرفی کرد، یک سیستم سنتز گفتار که بر سرعت و کیفیت صدا تمرکز دارد. این موتور صوتی که برای ادغام در محصولات و تجربیات روزمره طراحی شده است، با اهداف روشنی عرضه میشود: طبیعی به نظر برسد, در کمترین زمان ممکن پاسخ دهید و استقرار را بدون نیاز به قدرت محاسباتی قابل توجه تسهیل کنید.
هدف این است که صدا به یک رابط کاربری روان برای دستیارها و محتوا تبدیل شود. در آزمایشها و نمایشهای عمومی، این مدل به دلیل کاراییاش برجسته است: قادر است یک دقیقه کامل صداگذاری را در کمتر از یک ثانیه تولید کندحفظ طنین واقعگرایانه و کنترلشده برای سبکهای مختلف خواندن.
MAI-Voice-1: صدای طبیعی و اجرای نفسگیر

قابل توجهترین داده فنی، عملکرد استنتاج آن است. این سیستم تولید میکند ۶۰ ثانیه صدا در زمان تقریباً آنی با استفاده از یک پردازنده گرافیکی واحدو آن را به گزینهای بسیار رقابتی برای تجربیاتی تبدیل میکند که نیاز به پاسخ فوری دارند.
کیفیت نیز یک عامل اصلی است: طنین، آهنگ و مکثهای صدا رسا و باورپذیربا پشتیبانی از سناریوهای تک یا چند صدایی. این تعادل بین دقت و سرعت، کلید صدای مصنوعی است که حواس مخاطب را پرت نمیکند، بلکه محتوا را همراهی میکند.
کجا آزمایش میشود و چه ابزارهایی ارائه میدهد؟
MAI-Voice-1 اکنون در Copilot Daily و Podcasts ادغام شده است، جایی که خلاصههای گفتاری و محتوای تولید شده در لحظه را ترویج میدهد. همچنین در آزمایشگاههای Copilot موجود است.محیطی که مایکروسافت ویژگیهای جدید را در آن به نمایش میگذارد تا هر کسی بتواند با آنها آزمایش کند.
در این فضای آزمایشی، این شرکت با هدف بررسی پتانسیل مدل، داستانسرایی و تجربیات گفتاری رسا را ارائه میدهد. نمایشها به شما امکان آزمایش میدهند. نحوه پاسخ هوش مصنوعی به سبکهای خواندن احساسیتر یا توصیفیترو اینکه چگونه حتی در سرعتهای بالا وضوح را حفظ میکند.
ایدهها و سناریوهای استفاده
طیف کاربردها گسترده است. برای قصهگویی، راهنماهای صوتی یا مراقبهبیانگری مدل به انتقال منظور بدون ایجاد حس رباتیک کمک میکند، نیازی که به طور فزایندهای در محتوای فراگیر ارزشمند است.
در حوزه کسب و کار، تولید صداگذاری میتواند سرعت بگیرد آموزش داخلی، خدمات مشتری یا قطعات چندرسانهای برای بازاریابی. سرعت MAI-Voice-1 زمان تولید را کاهش میدهد و تکرار آن را تا یافتن لحن مناسب آسانتر میکند.
یکی دیگر از خطوط امیدوارکننده، خطوطی هستند که برای صدای طبیعیتر در اجرای زنده به تأخیر بسیار کمی نیاز داریدبا یک موتور سریع و انعطافپذیر، ادغام صدا در جریانهای تعاملی بدون تکیه بر زیرساختهای بزرگ آسانتر است..
چرا برای محصول و هزینهها اهمیت دارد؟
کارایی محاسباتی امکان مقیاسپذیری بدون افزایش هزینهها: امکان کار با یک پردازنده گرافیکی واحد این امر موانع ورود را کاهش میدهد و در را برای آزمایشها و استقرارهای قابل دسترستر، هم برای تیمهای محصول و هم برای تولیدکنندگان مستقل، باز میکند.
در عین حال، مایکروسافت بر اهمیت طراحی مسئولانه در سیستمهای صوتی خود تأکید میکند: رسایی بر فهم و سودمندی تمرکز دارد، بدون نسبت دادن احساسات یا نیت به آن به مدل. به عبارت دیگر، صدایی قانعکننده که باعث نشود کسی باور کند که شخصی آن طرف خط است.
با این پیشنهاد، MAI-Voice-1 قصد دارد به یک مهره کلیدی برای ... تبدیل شود. تجربیات گفتاری نسل بعدی: سریع، انعطافپذیر و با صدای گیرا، طراحی شده برای ادغام یکپارچه در محصولاتی که زمان پاسخ و کیفیت در آنها تفاوت ایجاد میکند.
من یک علاقه مند به فناوری هستم که علایق "گیک" خود را به یک حرفه تبدیل کرده ام. من بیش از 10 سال از زندگی خود را صرف استفاده از فناوری های پیشرفته و سرهم بندی کردن انواع برنامه ها از روی کنجکاوی کرده ام. اکنون در زمینه فناوری رایانه و بازی های ویدیویی تخصص دارم. این به این دلیل است که بیش از 5 سال است که برای وب سایت های مختلف در زمینه فناوری و بازی های ویدیویی می نویسم و مقالاتی را ایجاد می کنم که به دنبال ارائه اطلاعات مورد نیاز شما به زبانی قابل فهم برای همه هستند.
اگر سوالی دارید، دانش من از همه چیز مربوط به سیستم عامل ویندوز و همچنین اندروید برای تلفن های همراه است. و تعهد من به شماست، من همیشه حاضرم چند دقیقه وقت بگذارم و به شما کمک کنم تا هر سوالی را که ممکن است در این دنیای اینترنتی داشته باشید حل کنید.