MAI-Voice-1 مایکروسافت در کمتر از یک ثانیه یک دقیقه صدا تولید می‌کند: این روشی است که هدف آن ارائه صدای «طبیعی» به Copilot و هر برنامه دیگری است.

آخرین به‌روزرسانی: ۰۱/۰۲/۲۰۲۴

  • تولید یک دقیقه صدا در کمتر از ۱ ثانیه با یک پردازنده گرافیکی
  • صداهای طبیعی و رسا، حتی در سناریوهایی با چندین گوینده
  • موجود در Copilot Daily، پادکست‌ها و نسخه‌های آزمایشی در Copilot Labs
  • اپلیکیشن‌هایی برای قصه‌گویی، مدیتیشن، خدمات مشتری و موارد دیگر

مدل صوتی هوش مصنوعی مایکروسافت

مایکروسافت MAI-Voice-1 را معرفی کرد، یک سیستم سنتز گفتار که بر سرعت و کیفیت صدا تمرکز دارد. این موتور صوتی که برای ادغام در محصولات و تجربیات روزمره طراحی شده است، با اهداف روشنی عرضه می‌شود: طبیعی به نظر برسد, در کمترین زمان ممکن پاسخ دهید و استقرار را بدون نیاز به قدرت محاسباتی قابل توجه تسهیل کنید.

هدف این است که صدا به یک رابط کاربری روان برای دستیارها و محتوا تبدیل شود. در آزمایش‌ها و نمایش‌های عمومی، این مدل به دلیل کارایی‌اش برجسته است: قادر است یک دقیقه کامل صداگذاری را در کمتر از یک ثانیه تولید کندحفظ طنین واقع‌گرایانه و کنترل‌شده برای سبک‌های مختلف خواندن.

MAI-Voice-1: صدای طبیعی و اجرای نفس‌گیر

فناوری سنتز گفتار

قابل توجه‌ترین داده فنی، عملکرد استنتاج آن است. این سیستم تولید می‌کند ۶۰ ثانیه صدا در زمان تقریباً آنی با استفاده از یک پردازنده گرافیکی واحدو آن را به گزینه‌ای بسیار رقابتی برای تجربیاتی تبدیل می‌کند که نیاز به پاسخ فوری دارند.

محتوای اختصاصی - اینجا را کلیک کنید  همه چیز درباره Click to Do: نوآوری ویندوز 11 برای صفحه نمایش شما

کیفیت نیز یک عامل اصلی است: طنین، آهنگ و مکث‌های صدا رسا و باورپذیربا پشتیبانی از سناریوهای تک یا چند صدایی. این تعادل بین دقت و سرعت، کلید صدای مصنوعی است که حواس مخاطب را پرت نمی‌کند، بلکه محتوا را همراهی می‌کند.

کجا آزمایش می‌شود و چه ابزارهایی ارائه می‌دهد؟

MAI-Voice-1 اکنون در Copilot Daily و Podcasts ادغام شده است، جایی که خلاصه‌های گفتاری و محتوای تولید شده در لحظه را ترویج می‌دهد. همچنین در آزمایشگاه‌های Copilot موجود است.محیطی که مایکروسافت ویژگی‌های جدید را در آن به نمایش می‌گذارد تا هر کسی بتواند با آنها آزمایش کند.

در این فضای آزمایشی، این شرکت با هدف بررسی پتانسیل مدل، داستان‌سرایی و تجربیات گفتاری رسا را ​​ارائه می‌دهد. نمایش‌ها به شما امکان آزمایش می‌دهند. نحوه پاسخ هوش مصنوعی به سبک‌های خواندن احساسی‌تر یا توصیفی‌ترو اینکه چگونه حتی در سرعت‌های بالا وضوح را حفظ می‌کند.

ایده‌ها و سناریوهای استفاده

طیف کاربردها گسترده است. برای قصه‌گویی، راهنماهای صوتی یا مراقبهبیانگری مدل به انتقال منظور بدون ایجاد حس رباتیک کمک می‌کند، نیازی که به طور فزاینده‌ای در محتوای فراگیر ارزشمند است.

محتوای اختصاصی - اینجا را کلیک کنید  اختراعات آلفرد نوبل چه بود؟

در حوزه کسب و کار، تولید صداگذاری می‌تواند سرعت بگیرد آموزش داخلی، خدمات مشتری یا قطعات چندرسانه‌ای برای بازاریابی. سرعت MAI-Voice-1 زمان تولید را کاهش می‌دهد و تکرار آن را تا یافتن لحن مناسب آسان‌تر می‌کند.

یکی دیگر از خطوط امیدوارکننده، خطوطی هستند که برای صدای طبیعی‌تر در اجرای زنده به تأخیر بسیار کمی نیاز داریدبا یک موتور سریع و انعطاف‌پذیر، ادغام صدا در جریان‌های تعاملی بدون تکیه بر زیرساخت‌های بزرگ آسان‌تر است..

چرا برای محصول و هزینه‌ها اهمیت دارد؟

کارایی محاسباتی امکان مقیاس‌پذیری بدون افزایش هزینه‌ها: امکان کار با یک پردازنده گرافیکی واحد این امر موانع ورود را کاهش می‌دهد و در را برای آزمایش‌ها و استقرارهای قابل دسترس‌تر، هم برای تیم‌های محصول و هم برای تولیدکنندگان مستقل، باز می‌کند.

در عین حال، مایکروسافت بر اهمیت طراحی مسئولانه در سیستم‌های صوتی خود تأکید می‌کند: رسایی بر فهم و سودمندی تمرکز دارد، بدون نسبت دادن احساسات یا نیت به آن به مدل. به عبارت دیگر، صدایی قانع‌کننده که باعث نشود کسی باور کند که شخصی آن طرف خط است.

محتوای اختصاصی - اینجا را کلیک کنید  مایکروسافت Copilot Vision را معرفی کرد: عصر جدید مرور وب به کمک هوش مصنوعی

با این پیشنهاد، MAI-Voice-1 قصد دارد به یک مهره کلیدی برای ... تبدیل شود. تجربیات گفتاری نسل بعدی: سریع، انعطاف‌پذیر و با صدای گیرا، طراحی شده برای ادغام یکپارچه در محصولاتی که زمان پاسخ و کیفیت در آنها تفاوت ایجاد می‌کند.