- تم اختبار Claude 3.7 Sonnet من Anthropic أثناء لعب Pokémon Red على Twitch.
- لقد أظهر نموذج الذكاء الاصطناعي تقدمًا كبيرًا في التفكير واتخاذ القرار.
- لقد نجح في هزيمة أول ثلاثة قادة للصالة الرياضية في اللعبة، وهو الأمر الذي فشلت الإصدارات السابقة في تحقيقه.
- تسلط أنثروبيك الضوء على استخدام ألعاب الفيديو كطريقة تقييم للذكاء الاصطناعي.
أنثروبيك فاجأت عالم الذكاء الاصطناعي من خلال إظهار مدى قدرة طراز Claude 3.7 Sonnet الجديد على أداء المهام المعقدة. وفي هذه المناسبة، وكجزء من اختبار مبتكر للقدرات، تم وضع نظام الذكاء الاصطناعي للعب بوكيمون ريد في تويتشحيث تمكن المشاهدون من متابعة التقدم بشكل مباشر.
تسعى التجربة إلى إظهار كيف يمكن للذكاء الاصطناعي اتخاذ قرارات استراتيجية وتعلم كيفية التنقل في بيئة ديناميكية دون تدخل بشري. ويشكل هذا إنجازًا كبيرًا مقارنة بالإصدارات السابقة من النموذج، والتي فشلت في التغلب على الحواجز المبكرة داخل اللعبة.
سونيت كلود 3.7 يوضح التقدم في التفكير

لتقييم التحسينات التي طرأت على نموذج الذكاء الاصطناعي، زودته Anthropic بأدوات رئيسية معينة: عرض إدخال البكسل والذاكرة الأساسية والتحكم في الأزرار. بفضل هذه العناصر، تمكن كلود من تفسير ما يحدث في اللعبة واتخاذ القرارات بناءً على منطقها الداخلي.
في النماذج السابقة، مثل Claude 3.0 Sonnet، الذكاء الاصطناعي ولم يتمكن حتى من مغادرة منزل الشخصية الرئيسية.. ومع ذلك، في هذا الإصدار الجديد، تقدم النظام بشكل كبير، وتمكن من التغلب على Brock وMisty وLt. Surge، أول ثلاثة قادة صالة ألعاب رياضية في اللعبة.
رحلة مكونة من 35.000 حدث داخل عالم البوكيمون

لم تكن رحلة كلود في بوكيمون ريد سهلة. وفقًا للبيانات التي قدمتها Anthropic، نفذ الذكاء الاصطناعي حوالي 35.000 سهم حتى تمكن من التغلب على مرحلة سيوداد كارمين. لم يتم تحديد الوقت الدقيق الذي تستغرقه هذه العملية، ولكن قدرة النموذج على التكيف مع التغييرات وتعلم الأنماط أثناء أدائهم.
إن استخدام ألعاب الفيديو لتقييم الذكاء الاصطناعي ليس بالأمر الجديد. ومع ذلك، فإن هذه التجربة تعزز فكرة أن يمكن أن تصبح هذه البيئات أدوات أساسية لقياس التقدم في نماذج الذكاء الاصطناعي القادرة على التفكير والتكيف.
ما وراء اللعبة: سونيت كلود 3.7 وتطبيقاته في العالم الحقيقي

بالإضافة إلى إظهار المهارات داخل Pokémon Red، أبرزت Anthropic أن نموذج الذكاء الاصطناعي الخاص بها قادر على حل المشاكل المعقدة في مجالات مثل الرياضيات والبرمجة والترميز. وكجزء من التحسينات، تمت إضافة ميزة تسمى Claude Code، والتي تسمح للذكاء الاصطناعي بالبحث وتحرير التعليمات البرمجية، وتشغيل الاختبارات، وحتى العمل مع أدوات مثل GitHub.
بالنسبة لأولئك المهتمين باختبار قدرات النموذج، أصبح Claude 3.7 Sonnet متاحًا الآن على مجموعة متنوعة من المنصات، بما في ذلك تطبيق Claude، وAnthropic API، وAmazon Bedrock، وGoogle Cloud، مع الحفاظ على نفس تكلفة الوصول للإصدار السابق.
حقيقة أن Claude 3.7 Sonnet تمكن من التغلب على المراحل الرئيسية داخل Pokémon Red تعزز فكرة أن يتقدم الذكاء الاصطناعي بشكل كبير في مجال التفكير والتعلم. هذا النوع من الاختبارات يفتح الباب لـ تطبيقات جديدة في العالم الحقيقيمن أتمتة المهام إلى حل المشكلات المعقدة دون تدخل بشري.
أنا من عشاق التكنولوجيا وقد حول اهتماماته "المهووسة" إلى مهنة. لقد أمضيت أكثر من 10 سنوات من حياتي في استخدام التكنولوجيا المتطورة والتعديل على جميع أنواع البرامج بدافع الفضول الخالص. الآن تخصصت في تكنولوجيا الكمبيوتر وألعاب الفيديو. وذلك لأنني منذ أكثر من 5 سنوات أكتب لمواقع مختلفة حول التكنولوجيا وألعاب الفيديو، وأقوم بإنشاء مقالات تسعى إلى تزويدك بالمعلومات التي تحتاجها بلغة مفهومة للجميع.
إذا كان لديك أي أسئلة، فإن معرفتي تتراوح بين كل ما يتعلق بنظام التشغيل Windows وكذلك Android للهواتف المحمولة. والتزامي تجاهك هو أنني على استعداد دائمًا لقضاء بضع دقائق ومساعدتك في حل أي أسئلة قد تكون لديكم في عالم الإنترنت هذا.