تقدم Meta SAM 3 وSAM 3D: جيل جديد من الذكاء الاصطناعي البصري

آخر تحديث: 27/11/2025
نبذة عن الكاتب: ألبرتو نافارو

  • يقدم SAM 3 تقسيم الصور والفيديو باستخدام النص والأمثلة المرئية، مع مفردات تضم ملايين المفاهيم.
  • يتيح لك برنامج SAM 3D إعادة بناء الكائنات والمشاهد والأجسام البشرية ثلاثية الأبعاد من صورة واحدة، باستخدام نماذج مفتوحة.
  • يمكن اختبار النماذج دون الحاجة إلى معرفة تقنية في Segment Anything Playground، باستخدام قوالب عملية وإبداعية.
  • تطلق Meta أوزانًا ونقاط تفتيش ومعايير جديدة حتى يتمكن المطورون والباحثون في أوروبا وبقية العالم من دمج هذه القدرات في مشاريعهم.
سام ثلاثي الأبعاد

لقد اتخذت ميتا خطوة أخرى في التزامها بـ الذكاء الاصطناعي المطبق على الرؤية الحاسوبية مع إطلاق SAM 3 وSAM 3D، نموذجان يعملان على توسيع عائلة Segment Anything والتي يهدفون إلى تغيير الطريقة التي نعمل بها مع الصور ومقاطع الفيديووبعيدًا عن بقائها مجرد تجربة معملية، تريد الشركة أن يتم استخدام هذه الأدوات من قبل المحترفين والمستخدمين الذين ليس لديهم خلفية تقنية.

مع هذا الجيل الجديد، تركز ميتا على تحسين اكتشاف الكائنات وتقسيمها وفي جلب إعادة بناء ثلاثية الأبعاد لجمهور أوسع بكثيرمن تحرير الفيديو إلى تصور المنتجات للتجارة الإلكترونية في إسبانيا وبقية أوروبا، تتخيل الشركة سيناريو حيث إن مجرد وصف ما تريد القيام به بالكلمات يكفي لتمكين الذكاء الاصطناعي من القيام بمعظم العمل الشاق..

ماذا يقدم SAM 3 مقارنة بالإصدارات السابقة؟

تم وضع SAM 3 باعتباره التطور المباشر من نماذج التجزئة التي قدمتها ميتا في عامي 2023 و2024، والمعروفة باسم SAM 1 وSAM 2. ركزت الإصدارات المبكرة على تحديد وحدات البكسل التي تنتمي إلى كل كائن، باستخدام إشارات بصرية مثل النقاط أو المربعات أو الأقنعة بشكل أساسي، وفي حالة SAM 2، تتبع الكائنات طوال مقطع فيديو في الوقت الفعلي تقريبًا.

التطور الجديد الرئيسي الآن هو أن SAM 3 يفهم نصوص غنية ودقيقةليس مجرد تسميات عامة. فبينما كانت تُستخدم سابقًا مصطلحات بسيطة مثل "سيارة" أو "حافلة"، أصبح النموذج الجديد قادرًا على الاستجابة لأوصاف أكثر تحديدًا، مثل "حافلة مدرسية صفراء" أو "سيارة حمراء متوقفة مرتين".

في الممارسة العملية، هذا يعني أنه يكفي أن نكتب شيئًا مثل "قبعة بيسبول حمراء" حتى يتمكن النظام من تحديد وفصل جميع العناصر التي تناسب هذا الوصف في صورة أو فيديو. هذه القدرة على تحسين الكلمات مفيدة بشكل خاص في سياقات التحرير المهني، الإعلان أو تحليل المحتوى، حيث يتعين عليك في كثير من الأحيان النظر إلى تفاصيل محددة للغاية.

علاوة على ذلك، تم تصميم SAM 3 للتكامل مع نماذج لغوية متعددة الوسائط كبيرة الحجميتيح لك هذا تجاوز العبارات البسيطة واستخدام التعليمات المعقدة مثل: "الناس يجلسون ولكن لا يرتدون قبعة حمراء" أو "المشاة الذين ينظرون إلى الكاميرا دون حقيبة ظهر". يجمع هذا النوع من التعليمات بين الشروط والاستثناءات التي كان من الصعب حتى وقت قريب ترجمتها إلى أداة رؤية حاسوبية.

محتوى حصري - اضغط هنا  هذه هي التحسينات والأخبار الخاصة بـ Gemini Advanced في نشرتها الإخبارية لشهر فبراير

أداء وحجم نموذج SAM 3

نموذج ميتا SAM 3

أرادت ميتا أيضًا تسليط الضوء على الجزء الأقل وضوحًا ولكنه بالغ الأهمية: مقياس الأداء الفني والمعرفة وفقًا لبيانات الشركة، يستطيع SAM 3 معالجة صورة واحدة تحتوي على أكثر من مئة كائن مُكتشف في حوالي 30 ميلي ثانية باستخدام وحدة معالجة الرسومات H200، وهي سرعة قريبة جدًا من السرعة المطلوبة لسير العمل المُتطلب.

في حالة الفيديو، تؤكد الشركة أن النظام يحافظ على الأداء في الوقت الحقيقي تقريبًا عند العمل مع حوالي خمسة أشياء متزامنة، مما يجعلها قابلة للتطبيق لتتبع وتقسيم المحتوى المتحرك، من مقاطع الوسائط الاجتماعية القصيرة إلى مشاريع الإنتاج الأكثر طموحًا.

لتحقيق هذا السلوك، قامت ميتا ببناء قاعدة تدريب بأكثر من 4 ملايين مفهوم فريدمن خلال الجمع بين المعلقين البشريين ونماذج الذكاء الاصطناعي للمساعدة في تصنيف كميات كبيرة من البيانات، يهدف هذا المزيج من الإشراف اليدوي والآلي إلى تحقيق التوازن بين الدقة والحجم - وهو أمر أساسي لضمان استجابة النموذج بشكل جيد للمدخلات المتنوعة في السياقات الأوروبية وأمريكا اللاتينية وغيرها من الأسواق.

تضع الشركة إطار SAM 3 ضمن ما تسميه مجموعة Segment Anythingمجموعة من النماذج والمعايير والموارد المصممة لتوسيع نطاق الفهم البصري للذكاء الاصطناعي. ويصاحب الإطلاق معيار جديد لتجزئة "المفردات المفتوحة"، يركز على قياس مدى قدرة النظام على فهم أي مفهوم تقريبًا مُعبَّر عنه باللغة الطبيعية.

التكامل مع Edits وVibes وأدوات Meta الأخرى

تحرير مقاطع فيديو 4K باستخدام Meta Edits

وبعيدًا عن المكون الفني، فقد بدأت ميتا بالفعل في دمج SAM 3 في منتجات محددة والتي تهدف إلى الاستخدام اليومي. ستكون إحدى الوجهات الأولى هي Edits، وهو تطبيق لإنشاء وتحرير الفيديو، حيث تكمن الفكرة في أن المستخدم يمكنه تحديد أشخاص أو أشياء معينة باستخدام وصف نصي بسيط وتطبيق التأثيرات أو المرشحات أو التغييرات فقط على تلك الأجزاء من اللقطات.

سيتم العثور على طريق آخر للتكامل في Vibes، داخل تطبيق Meta AI ومنصة meta.aiفي هذه البيئة، سيتم دمج تقسيم النص مع الأدوات التوليدية لإنشاء تجارب تحرير وإبداع جديدة، مثل الخلفيات المخصصة، وتأثيرات الحركة، أو تعديلات الصور الانتقائية المصممة للشبكات الاجتماعية التي تحظى بشعبية كبيرة في إسبانيا وبقية أوروبا.

ويتمثل اقتراح الشركة في أن لا تقتصر هذه القدرات على الدراسات المهنية، بل أن تصل إلى... المبدعون المستقلون والوكالات الصغيرة والمستخدمون المتقدمون الذين يعملون يوميًا مع المحتوى المرئي. تُسهّل إمكانية تقسيم المشاهد بكتابة أوصاف بلغة طبيعية عملية التعلم مقارنةً بالأدوات التقليدية القائمة على الأقنعة والطبقات اليدوية.

في الوقت نفسه، تحافظ Meta على نهج مفتوح تجاه المطورين الخارجيين، مما يشير إلى أنه تطبيقات الطرف الثالث - من أدوات التحرير إلى حلول تحليلات الفيديو في مجال البيع بالتجزئة أو الأمن - يمكن الاعتماد على SAM 3 طالما يتم احترام سياسات الاستخدام الخاصة بالشركة.

محتوى حصري - اضغط هنا  كيفية استخدام DeepSeek في Visual Studio Code

SAM 3D: إعادة بناء ثلاثية الأبعاد من صورة واحدة

كيف يعمل SAM 3D

والخبر الكبير الآخر هو سام ثلاثي الأبعادنظام مصمم لأداء إعادة بناء ثلاثية الأبعاد بدءًا من صور ثنائية الأبعاد. بدلًا من الحاجة إلى التقاط صور متعددة من زوايا مختلفة، يهدف النموذج إلى إنشاء تمثيل ثلاثي الأبعاد موثوق من صورة واحدة، وهو أمر مثير للاهتمام بشكل خاص لمن لا يملكون معدات مسح ضوئي متخصصة أو سير عمل.

يتكون SAM 3D من نموذجين مفتوحي المصدر لهما وظائف مميزة: كائنات سام ثلاثية الأبعادركز على إعادة بناء الأشياء والمشاهد، و جسم سام ثلاثي الأبعادمُصمم لتقدير شكل الجسم البشري. يتيح هذا الفصل للنظام التكيف مع حالات استخدام متنوعة، بدءًا من كتالوجات المنتجات وصولًا إلى تطبيقات الصحة والرياضة.

وفقًا لـ Meta، فإن SAM 3D Objects يمثل علامة معيار أداء جديد في إعادة بناء ثلاثية الأبعاد بمساعدة الذكاء الاصطناعيمتجاوزةً بسهولة الطرق السابقة في معايير الجودة الرئيسية. ولتقييم النتائج بدقة أكبر، تعاونت الشركة مع فنانين لإنشاء SAM 3D Artist Objects، وهي مجموعة بيانات مصممة خصيصًا لتقييم دقة وتفاصيل عمليات إعادة البناء عبر مجموعة واسعة من الصور والأشياء.

يفتح هذا التقدم الباب أمام التطبيقات العملية في مجالات مثل الروبوتات، والعلوم، والطب الرياضي، أو الإبداع الرقميعلى سبيل المثال، في مجال الروبوتات، يمكن أن يساعد الذكاء الاصطناعي الأنظمة على فهم حجم الأشياء التي تتفاعل معها بشكل أفضل؛ وفي الأبحاث الطبية أو الرياضية، يمكن أن يساعد في تحليل وضعية الجسم وحركته؛ وفي التصميم الإبداعي، يعمل كأساس لإنشاء نماذج ثلاثية الأبعاد للرسوم المتحركة أو ألعاب الفيديو أو التجارب الغامرة.

أحد التطبيقات التجارية الأولى التي يمكن رؤيتها بالفعل هي الوظيفة "عرض في الغرفة" de سوق فيس بوكيتيح لك برنامج SAM 3D تصوّر شكل قطعة أثاث أو قطعة ديكور في غرفة حقيقية قبل شرائها. تسعى ميتا إلى إتقان هذه الأنواع من التجارب، وهو أمر ذو أهمية كبيرة بالنسبة للتجارة الإلكترونية الأوروبية، حيث يمثل إرجاع المنتجات بسبب عدم تلبية التوقعات تكلفة متزايدة.

كيفية تحويل الأشخاص والأشياء إلى نماذج ثلاثية الأبعاد باستخدام SAM 3D
المادة ذات الصلة:
تحويل الأشخاص والأشياء إلى صور ثلاثية الأبعاد باستخدام SAM 3 وSAM 3D من Meta

ساحة لعب Segment Anything: بيئة للتجريب

ساحة لعب Segment Anything

للسماح للجمهور باختبار هذه القدرات دون تثبيت أي شيء، قامت Meta بتمكين ساحة لعب Segment Anythingإنها منصة ويب تتيح لك تحميل الصور أو مقاطع الفيديو وتجربة SAM 3 وSAM 3D مباشرةً من متصفحك. الفكرة هي أن أي شخص مهتم بالذكاء الاصطناعي البصري يمكنه استكشاف الإمكانيات المتاحة دون أي معرفة برمجية.

في حالة SAM 3، يسمح Playground بتقسيم الكائنات باستخدام عبارات قصيرة أو تعليمات مفصلةدمج النصوص، وإذا رغبت، الأمثلة المرئية. يُبسّط هذا المهام الشائعة، مثل تحديد الأشخاص أو السيارات أو الحيوانات أو عناصر محددة من المشهد، وتطبيق إجراءات محددة عليها، من التأثيرات الجمالية إلى التمويه أو استبدال الخلفية.

محتوى حصري - اضغط هنا  تعتمد شركة أبل على الذكاء الاصطناعي لزيادة عمر البطارية في هواتف آيفون مع نظام التشغيل iOS 19.

عند العمل مع SAM 3D، تتيح المنصة إمكانية استكشاف المشاهد من وجهات نظر جديدةإعادة ترتيب الأشياء، وتطبيق تأثيرات ثلاثية الأبعاد، أو إنشاء مناظر بديلة. يُتيح هذا البرنامج للعاملين في مجال التصميم أو الإعلان أو المحتوى ثلاثي الأبعاد طريقة سريعة لإنشاء نماذج أولية للأفكار دون الحاجة إلى استخدام أدوات تقنية معقدة منذ البداية.

يتضمن الملعب أيضًا سلسلة من قوالب جاهزة للاستخدام هذه الميزات مُصممة لمهام محددة للغاية. وتشمل خيارات عملية مثل تحويل الوجوه أو لوحات الترخيص إلى بكسلات لأغراض الخصوصية، وتأثيرات بصرية مثل مسارات الحركة، وإبرازات مختارة، أو تسليط الضوء على مناطق الاهتمام في الفيديو. تُناسب هذه الوظائف بشكل خاص سير عمل مُنشئي الوسائط الرقمية والمحتوى في إسبانيا، حيث يكون إنتاج مقاطع الفيديو القصيرة ومحتوى وسائل التواصل الاجتماعي مستمرًا.

الموارد المفتوحة للمطورين والباحثين

أمثلة SAM 3D Meta

تمشيا مع الاستراتيجية التي اتبعتها Meta في إصدارات الذكاء الاصطناعي الأخرى، قررت الشركة إصدار جزء كبير من الموارد الفنية المرتبطة بـ SAM 3 وSAM 3Dبالنسبة للأولى، تم الإعلان عن أوزان النموذج، ومعيار جديد يركز على تقسيم المفردات المفتوحة، بالإضافة إلى وثيقة فنية تفصل تطويره.

في حالة SAM 3D، يتوفر ما يلي: نقاط تفتيش النموذج، ورمز الاستدلال، ومجموعة بيانات التقييم الجيل القادم. تتضمن هذه المجموعة من البيانات مجموعةً واسعةً من الصور والأشياء التي تهدف إلى تجاوز نقاط المرجع ثلاثية الأبعاد التقليدية، مما يوفر واقعيةً وتعقيدًا أكبر، وهو أمرٌ قد يكون مفيدًا جدًا لمجموعات البحث الأوروبية العاملة في مجال الرؤية الحاسوبية والرسومات.

أعلنت Meta أيضًا عن تعاونها مع منصات التعليقات التوضيحية مثل Roboflow، بهدف تمكين المطورين والشركات من أدخل بياناتك الخاصة واضبط SAM 3 لتلبية احتياجات محددة. وهذا يفتح الباب أمام حلول خاصة بكل قطاع، بدءًا من التفتيش الصناعي وصولًا إلى تحليل حركة المرور في المناطق الحضرية، بما في ذلك مشاريع التراث الثقافي حيث من المهم تقسيم العناصر المعمارية أو الفنية بدقة.

من خلال اختيار نهج مفتوح نسبيًا، تسعى الشركة إلى ضمان أن يكون النظام البيئي للمطورين، الجامعات والشركات الناشئة يمكن للشركات الناشئة -بما في ذلك تلك العاملة في إسبانيا وبقية أوروبا- تجربة هذه التقنيات ودمجها في منتجاتها الخاصة، وفي النهاية المساهمة في حالات استخدام تتجاوز تلك التي يمكن لشركة Meta تطويرها داخليًا.

مع SAM 3 وSAM 3D، تهدف Meta إلى تعزيز منصة الذكاء الاصطناعي المرئية الأكثر مرونة وسهولة الوصول إليهاحيث لم تعد التجزئة الموجهة بالنصوص وإعادة البناء ثلاثي الأبعاد من صورة واحدة حكرًا على فرق متخصصة للغاية. يمتد التأثير المحتمل من تحرير الفيديو اليومي إلى التطبيقات المتقدمة في العلوم والصناعة والتجارة الإلكترونية، في سياق أصبح فيه الجمع بين اللغة والرؤية الحاسوبية والإبداع أداة عمل أساسية، وليس مجرد وعد تكنولوجي.