- يقوم SynthID بتضمين علامات مائية غير محسوسة في النصوص والصور والصوت والفيديو لتحديد المحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي.
- في النص، يعمل كمعالج لوجيت مع مفاتيح وn-grams، مع الكشف البايزي القابل للتكوين بواسطة العتبات.
- يتوفر التنفيذ في Transformers 4.46.0+، مع المساحة الرسمية والمرجع على GitHub.
- إنها تحتوي على قيود (نصوص قصيرة، ترجمات، إعادة كتابة) ولكنها تعزز الشفافية وإمكانية التتبع.
لقد أدى ظهور الذكاء الاصطناعي التوليدي إلى تعزيز إنتاج الصور والنصوص والمقاطع الصوتية ومقاطع الفيديو على نطاق لم نشهده من قبل، ومعه تزايدت الشكوك حول أصلها؛ وفي هذا السياق، تحديد ما إذا كان المحتوى قد تم إنشاؤه أو تعديله بواسطة نموذج يصبح مفتاحًا للثقة الرقمية. معرف التركيب يمكن أن يكون حلاً رائعًا.
هذا هو اقتراح Google DeepMind، عائلة من تقنيات العلامات المائية "غير المرئية" والتي يتم تضمينها مباشرة في المحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي لتسهيل التحقق اللاحق دون تدهور الجودة التي يدركها البشر.
ما هو SynthID وما الغرض منه؟
يصف Google SynthID كأداة لـ علامة مائية محددة للمحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعيصُمم هذا النظام لتعزيز الشفافية وإمكانية التتبع. ولا يقتصر على صيغة واحدة، بل يشمل الصور والصوت والنصوص والفيديو، ما يتيح تطبيق نهج تقني واحد على مختلف أنواع الوسائط.
في نظام Google البيئي، يتم استخدامه بالفعل بعدة طرق:
- في النص, ينطبق العلم على استجابات الجوزاء.
- في الصوتيتم استخدامه مع نموذج Lyria ومع ميزات مثل إنشاء ملفات بودكاست من نص في Notebook LM.
- En فيديوتم دمجه في إبداعات Veo، وهو النموذج القادر على إنشاء مقاطع بدقة 1080 بكسل.
في جميع الحالات العلامة المائية إنه غير محسوس، وقد تم تصميمه لـ تحمل التعديلات المتكررة مثل الضغط، وتغيير الإيقاع في قطع الصوت أو الفيديو، دون تقليل الجودة.
وبعيدا عن التكنولوجيا، فإن هدفها العملي واضح: المساعدة في التمييز بين المواد الاصطناعية وتلك المنتجة بدون الذكاء الاصطناعي، حتى يتمكن المستخدمون ووسائل الإعلام والمؤسسات من اتخاذ قرارات مستنيرة بشأن استهلاك وتوزيع المحتوى.

كيفية عمل العلامة المائية النصية (SynthID Text)
في الممارسة العملية، يعمل SynthID Text كـ معالج لوجيت الذي يتصل بخط أنابيب توليد نموذج اللغة بعد مرشحات أخذ العينات المعتادة (Top-K وTop-P). يُعدِّل هذا المعالج درجات النموذج بدقة باستخدام دالة شبه عشوائية g، ترميز المعلومات في نمط الاحتمالات دون إدخال آثار مرئية في أسلوب أو جودة النص.
النتيجة هي نص يحافظ على ما هو عليه للوهلة الأولى الجودة والدقة والسيولة، ولكنها تتضمن بنية إحصائية يمكن اكتشافها بواسطة محقق مدرب.
لتوليد نص مع علامة مائية ليس من الضروري إعادة تدريب النموذج: ببساطة قم بتوفير تكوين للطريقة .generate() وفعّل معالج logit الخاص بـ SynthID Text. يُسهّل هذا عملية التبني ويتيح الاختبار باستخدام نماذج مُستخدمة بالفعل.
تتضمن إعدادات العلامة المائية معامِلَتين أساسيتين: keys y ngram_len. المفاتيح قائمة بأعداد صحيحة فريدة وعشوائية تُستخدم لتقييم المفردات باستخدام دالة g؛ ويتحكم طول هذه القائمة في عدد طبقات العلامات المائية المُطبقة. ngram_len يضبط التوازن بين إمكانية الكشف والمتانة للتحولات: القيم الأعلى تجعل الكشف أسهل ولكنها تجعل الختم أكثر عرضة للتغييرات؛ تعمل القيمة 5 بشكل جيد كنقطة بداية.
بالإضافة إلى ذلك، يستخدم SynthID Text جدول أخذ العينات مع خاصيتين: sampling_table_size y sampling_table_seed. يوصى بحجم لا يقل عن 2^16 لضمان أن تتصرف الدالة g بطريقة مستقرة وغير متحيزة عند أخذ العينات، مع الأخذ في الاعتبار أن الحجم الأكبر يعني ذاكرة أكبر أثناء الاستدلال. يمكن أن تكون البذرة أي عدد صحيح، مما يُسهّل إمكانية التكرار في بيئات التقييم.
هناك فارق بسيط مهم لتحسين الإشارة: ن-جرام متكرر في إطار التاريخ الحديث للسياق (المحدد بواسطة context_history_size) لا يتم وضع علامة عليها، مما يعزز إمكانية اكتشاف العلامة في بقية النص ويقلل من الإيجابيات الخاطئة المرتبطة بالتكرارات الطبيعية للغة.
لأسباب أمنية، يتم تكوين كل علامة مائية (بما في ذلك مفاتيحها وبذرتها ومعلماتها) يجب تخزينها بشكل خاصإذا تم تسريب هذه المفاتيح، فمن الممكن أن يقوم أطراف ثالثة بسهولة بتكرار العلامة التجارية أو الأسوأ من ذلك، محاولة التلاعب بها مع العلم الكامل ببنيتها.
كيفية الكشف: التحقق الاحتمالي باستخدام العتبات
التحقق من وجود علامة مائية في النص ليس ثنائيًا، ولكن احتماليتنشر Google كاشفًا بايزيًا على كل من Transformers وGitHub، والذي بعد تحليل النمط الإحصائي للنص، يعيد ثلاث حالات محتملة: علامة تجارية, بدون علامة تجارية o غير مؤكديتيح هذا الناتج الثلاثي إمكانية تعديل العملية لتتناسب مع سياقات مختلفة من المخاطر والتسامح مع الأخطاء.
يمكن تكوين سلوك المُتحقق بواسطة عتبتين التي تتحكم في معدل النتائج الإيجابية والسلبية الخاطئة. بمعنى آخر، يمكنك ضبط دقة الكشف، مع التضحية بالحساسية من أجل الدقة أو العكس، حسب حالة استخدامك، وهو أمر مفيد بشكل خاص في البيئات التحريرية والاعتدال أو التدقيق الداخلي.
إذا كانت هناك عدة نماذج تشترك في نفس مُجزئ، ويمكن أيضا مشاركة نفس العلامة التجارية ونفس الكاشفطالما أن مجموعة تدريب المُتحقق تتضمن أمثلةً على جميع هذه العناصر. هذا يُسهّل بناء "علامات مائية مشتركة" في المؤسسات التي لديها شهادات ماجستير متعددة.
بمجرد تدريب الكاشف، يمكن للمنظمات أن تقرر مستوى تعرضه: الاحتفاظ به خصوصية تامة، عرضها بطريقة ما شبه خاص من خلال واجهة برمجة التطبيقات (API)، أو إصدارها بطريقة ما عام للتنزيل والاستخدام من قِبل جهات خارجية. يعتمد الاختيار على قدرة كل كيان على تشغيل بنيته التحتية، والمخاطر التنظيمية، واستراتيجية الشفافية.

علامة مائية على الصور والصوت والفيديو
تم تصميم هذه العلامة التجارية لتدوم التحولات الشائعة مثل القص، وتغيير الحجم، والتدوير، وتغيير اللون، وحتى التقاط لقطات شاشة، دون الحاجة إلى الاحتفاظ بالبيانات الوصفية. في البداية، كان استخدامه متاحًا من خلال الصورة في Vertex AI، حيث يمكن للمستخدمين اختيار تنشيط العلامة المائية عند إنشاء المحتوى.
في الصوت، العلامة التجارية هي غير مسموع ويدعم عمليات شائعة مثل ضغط ملفات MP3، وإضافة الضوضاء، أو تعديل سرعة التشغيل. تُدمجه جوجل في ليريا وفي ميزات Notebook LM، يتم تعزيز الإشارة حتى عندما يمر الملف عبر تدفقات النشر المفقودة.
في الفيديو، يكرر النهج نهج الصورة: يتم تضمين العلامة التجارية في بكسل لكل إطار، بشكل غير محسوس، ويظل ثابتًا ضد المرشحات والتغييرات في معدل التحديث والضغط أو جروح. مقاطع الفيديو التي تم إنشاؤها بواسطة أرى تتضمن أدوات مثل VideoFX هذه العلامة أثناء الإنشاء، مما يقلل من خطر الحذف العرضي في التحرير اللاحق.
خوارزميات أخذ العينات ومتانة ختم النص
إن قلب SynthID Text هو خوارزمية أخذ العيناتيستخدم هذا النظام مفتاحًا (أو مجموعة مفاتيح) لتعيين درجات شبه عشوائية لكل رمز محتمل. يُختار المرشحون من توزيع النموذج (بعد Top-K/Top-P) ويُوضعون في "منافسة" بعد جولات الإقصاء، حتى يتم اختيار الرمز الأعلى درجةً وفقًا للدالة g.
هذا الإجراء الاختياري يفضل النمط الإحصائي النهائي تحمل الاحتمالات علامة العلامة التجارية، ولكن دون فرض خيارات غير طبيعية. ووفقًا للدراسات المنشورة، فإن هذه التقنية تجعل الأمر صعبًا محو أو تزوير أو عكس الختم، دائما ضمن حدود معقولة ضد المعارضين مع الوقت والدافع.
ممارسات التنفيذ والأمن الجيدة
- إذا كنت تقوم بنشر SynthID Text، فتعامل مع التكوين على أنه سر الإنتاج:خزّن المفاتيح والبذور في مدير آمن، وطبّق ضوابط الوصول، واسمح بالتناوب الدوري. يُقلّل منع التسريبات من مساحة الهجوم ضد محاولات الهندسة العكسية.
- صمم خطة لـ يراقب لجهاز الكشف الخاص بك: سجل معدلات النتائج الإيجابية/السلبية الخاطئة، واضبط الحدود وفقًا للسياق وحدد سياسة الكشف الخاصة بك التعرض (خاصة، شبه خاصة عبر واجهة برمجة التطبيقات، أو عامة) بمعايير قانونية وتشغيلية واضحة. وإذا كانت نماذج متعددة تشترك في مُرمز، ففكّر في تدريب كاشف مشترك مع أمثلة لكل منها لتبسيط الصيانة.
- على مستوى الأداء، يتم تقييم تأثير
sampling_table_sizeفي الذاكرة والزمن الكامن، واخترngram_lenالذي يوازن بين تحمّلك للتعديلات وحاجتك إلى كشف موثوق. تذكر استبعاد تكرار n-grams (عبرcontext_history_size) لتحسين الإشارة في النص المتدفق.
لا يعد SynthID بمثابة رصاصة فضية ضد المعلومات المضللة، ولكن يوفر حجر الأساس لإعادة بناء سلسلة الثقة في عصر الذكاء الاصطناعي التوليدي. من خلال تضمين إشارات المنشأ في النصوص والصور والصوت والفيديو، وفتح عنصر النص للمجتمع، تعمل Google DeepMind على المضي قدمًا نحو مستقبل يمكن فيه تدقيق الأصالة بطريقة عملية وقابلة للقياس، وقبل كل شيء، متوافقة مع الإبداع وجودة المحتوى.
محرر متخصص في قضايا التكنولوجيا والإنترنت بخبرة تزيد عن عشر سنوات في الوسائط الرقمية المختلفة. لقد عملت كمحرر ومنشئ محتوى لشركات التجارة الإلكترونية والاتصالات والتسويق عبر الإنترنت وشركات الإعلان. لقد كتبت أيضًا في مواقع الاقتصاد والمالية والقطاعات الأخرى. عملي هو أيضا شغفي. الآن من خلال مقالاتي في Tecnobits، أحاول استكشاف كل الأخبار والفرص الجديدة التي يقدمها لنا عالم التكنولوجيا كل يوم لتحسين حياتنا.