- أطلقت OpenAI نماذج صوتية جديدة تعتمد على GPT-4o وGPT-4o Mini لتحسين نسخ الكلام وتحويله.
- تهدف هذه التحسينات إلى تقديم قدر أكبر من الدقة وتقليل الأخطاء والتكيف بشكل أفضل مع الأنماط واللمسات المختلفة.
- سيتمكن وكلاء الصوت من تخصيص نبرة صوتهم، مما يجعل استخدامها في خدمة العملاء والتطبيقات الأخرى أسهل.
- ويشير الإطلاق إلى مستقبل ستصبح فيه المساعدات التي تعمل بالذكاء الاصطناعي طبيعية ومعبرة بشكل متزايد.

أوبن إيه آي لقد اتخذت خطوة كبيرة في تطوير نماذج صوتية أكثر طبيعية وتعبيرية ودقة، أعلنت مؤخرًا عن إصدارات جديدة من تقنية الصوت الخاصة بها المستندة إلى GPT-4o وGPT-4o Mini. مع هذا التحديث، أصبحت الشركة يسعى إلى تسهيل دمج وكلاء الصوت في تطبيقات متعددة، مع التركيز على التخصيص وتحسين جودة التفاعل.
وتستجيب هذه التطورات للطلب المتزايد على أنظمة الذكاء الاصطناعي الأكثر كفاءة في تفسير اللغة وتوليد الصوت الطبيعي، مما يفتح الباب لعصر يمكن فيه سوف يصبح التواصل مع الأنظمة الآلية غير قابل للتمييز تقريبًا عن المحادثة مع البشر.
نماذج صوتية جديدة: تحسينات في النسخ وتوليد الكلام
ال تتضمن نماذج OpenAI الجديدة GPT-4o-transcribe و GPT-4o-mini-transcribe لتحويل الكلام إلى نص، مما يوفر نسخًا أكثر دقة، حتى في البيئات ذات الضوضاء الخلفية أو اللهجات المتنوعة. بفضل التعلم المتقدم، تعمل هذه النماذج على تقليل معدل خطأ الكلمات (WER) بشكل كبير، مما يحسن التكيف مع اللغات وأساليب التحدث المختلفة.
بالإضافة إلى ذلك، أصدرت OpenAI نموذج GPT-4o-mini-tts، وهو نموذج تحويل النص إلى كلام يسمح لك بتعديل التجويد ونبرة الصوت وأسلوب الكلام. وهذا أمر أساسي لتطوير المزيد من المساعدين الرقميين الطبيعيين، القادرين على الاستجابة بالعاطفة المناسبة في سياقات مختلفة، مثل خدمة العملاء أو سرد المحتوى. وفي هذا السياق، حدثت تطورات أيضًا تسمح تحويل النص إلى كلام في تطبيقات مختلفة.
التخصيص والتطبيقات العملية
واحدة من أكبر الميزات الجديدة هي أن سيتمكن المطورون من تخصيص الأصوات ومن خلال هذه النماذج، يتم ضبط التفاصيل مثل السرعة، والتجويد، والتعبير. وهذا يفتح الطريق إلى وكلاء صوتيون مصممون خصيصًا لقطاعات مختلفةمن المساعدين الافتراضيين إلى أدوات إمكانية الوصول للأشخاص ذوي الإعاقات البصرية أو السمعية.
وتستكشف الشركات بالفعل استخدام هذه النماذج تحسين خدمة العملاءإنشاء أنظمة قادرة على إدارة المكالمات والاستجابة لها بشكل أكثر سلاسة في مراكز الاتصال. ومن المقرر أيضًا دمجها في التطبيقات التعليمية ومنصات الترفيه وأدوات الإنتاجية.
تكنولوجيا التدريب وتحسين الدقة
لتحقيق هذه التحسينات، استخدمت OpenAI التدريب المبني على بيانات صوتية حقيقية وتقنيات التعلم التعزيزي المتقدمة. وقد سمح هذا للنماذج بفهم الفروق الدقيقة في اللغة بشكل أفضل، وتكييف الاستجابات لأنواع مختلفة من المستخدمين، وتقديم تجربة محادثة أكثر طبيعية.
يتفوق الطراز الجديد على سابقه، ويسبر، في جوانب متعددة، بما في ذلك القدرة على تفسير فترات التوقف في المحادثة دون مقاطعة المستخدمين وتقليل الأخطاء في النسخ في الوقت الفعلي. وبجانب كل هذا يتم تطبيق الأساليب التعرف على الصوت في مختلف المجالات.
التأثير على مستقبل الذكاء الاصطناعي المحادثة
ويشير إصدار هذه النماذج إلى تحول في طريقة تفاعلنا مع مساعدي الذكاء الاصطناعي. إمكانية الحصول على إن وجود وكلاء صوتيين أكثر تعاطفاً ودقة قد يحدث ثورة في قطاعات مثل التجارة الإلكترونية والرعاية الصحية والتعليم.. من المهم أن نأخذ في الاعتبار كيفية تطور مثل هذه يمكن أن تكون مرتبطة بإنشاء أجهزة صوتية جديدة التي تعمل على تحسين تجربة المستخدم الشاملة.
ومع تطور هذه التقنيات، أصبح الخط الفاصل بين البشر والذكاء الاصطناعي غير واضح بشكل متزايد. مع تطورات مثل هذه، تتمركز OpenAI في طليعة إنشاء تجارب محادثة أكثر طبيعية.، مما يقربنا من عصر حيث سيكون التواصل باستخدام الذكاء الاصطناعي غير قابل للتمييز تقريبًا عن التفاعل بين البشر.
أنا من عشاق التكنولوجيا وقد حول اهتماماته "المهووسة" إلى مهنة. لقد أمضيت أكثر من 10 سنوات من حياتي في استخدام التكنولوجيا المتطورة والتعديل على جميع أنواع البرامج بدافع الفضول الخالص. الآن تخصصت في تكنولوجيا الكمبيوتر وألعاب الفيديو. وذلك لأنني منذ أكثر من 5 سنوات أكتب لمواقع مختلفة حول التكنولوجيا وألعاب الفيديو، وأقوم بإنشاء مقالات تسعى إلى تزويدك بالمعلومات التي تحتاجها بلغة مفهومة للجميع.
إذا كان لديك أي أسئلة، فإن معرفتي تتراوح بين كل ما يتعلق بنظام التشغيل Windows وكذلك Android للهواتف المحمولة. والتزامي تجاهك هو أنني على استعداد دائمًا لقضاء بضع دقائق ومساعدتك في حل أي أسئلة قد تكون لديكم في عالم الإنترنت هذا.
