انہوں نے جیمنی میں ایک تصویر میں آرڈر چھپنے کا ایک طریقہ ڈھونڈ لیا ہے: سادہ اسکیلنگ AI ان پر عمل درآمد کرتی ہے۔

آخری تازہ کاری: 03/09/2025

  • ایک حملہ تصویروں میں غیر مرئی ملٹی موڈل پرامپٹس کو چھپاتا ہے جو، جیمنی پر اسکیل کرنے پر، بغیر کسی وارننگ کے انجام دیتے ہیں۔
  • ویکٹر امیج پری پروسیسنگ (224x224/512x512) کا فائدہ اٹھاتا ہے اور ڈیٹا کو نکالنے کے لیے Zapier جیسے ٹولز کو متحرک کرتا ہے۔
  • قریب ترین پڑوسی، بلینیئر، اور بائی کیوبک الگورتھم کمزور ہیں؛ Anamorpher ٹول انہیں انجیکشن لگانے کی اجازت دیتا ہے۔
  • ماہرین مشورہ دیتے ہیں کہ کم کرنے سے گریز کریں، ان پٹ کا پیش نظارہ کریں، اور حساس کارروائیوں کو انجام دینے سے پہلے تصدیق کی ضرورت ہے۔

AI سسٹمز پر تصویری حملے

محققین کے ایک گروپ نے مداخلت کا ایک طریقہ دستاویز کیا ہے۔ تصاویر میں پوشیدہ ہدایات کو انجیکشن کرکے ذاتی ڈیٹا چوری کرناجب وہ فائلیں ملٹی موڈل سسٹمز جیسے جیمنی پر اپ لوڈ کی جاتی ہیں، خودکار پری پروسیسنگ کمانڈز کو ایکٹیویٹ کرتی ہے، اور AI ان کی پیروی کرتا ہے گویا وہ درست ہیں۔

دی ٹریل آف بٹس کی طرف سے رپورٹ کردہ دریافت، پیداوار کے ماحول کو متاثر کرتی ہے۔ جیسے Gemini CLI، Vertex AI Studio، Gemini API، Google اسسٹنٹ یا Gensparkگوگل نے تسلیم کیا ہے کہ یہ صنعت کے لیے ایک اہم چیلنج ہے، جس میں اب تک حقیقی دنیا کے ماحول میں استحصال کا کوئی ثبوت نہیں ملا ہے۔ اس خطرے کی اطلاع نجی طور پر Mozilla کے 0Din پروگرام کے ذریعے دی گئی۔

امیج اسکیلنگ اٹیک کیسے کام کرتا ہے۔

جیمنی امیج اسکیلنگ اٹیک کیسے کام کرتا ہے۔

کلید تجزیہ سے پہلے کے مرحلے میں ہے: بہت سی AI پائپ لائنز معیاری ریزولوشنز (224×224 یا 512×512) میں خودکار طور پر تصاویر کا سائز تبدیل کریںعملی طور پر، ماڈل اصل فائل کو نہیں دیکھتا، بلکہ ایک چھوٹا ورژن دیکھتا ہے، اور یہیں سے بدنیتی پر مبنی مواد سامنے آتا ہے۔

خصوصی مواد - یہاں کلک کریں۔  آئی ٹی سیکیورٹی

حملہ آور داخل غیر مرئی واٹر مارکس سے چھپے ہوئے ملٹی موڈل پرامپٹس، اکثر تصویر کے تاریک علاقوں میں۔ جب اپ اسکیلنگ الگورتھم چلتے ہیں، تو یہ نمونے ابھرتے ہیں اور ماڈل ان کو جائز ہدایات سے تعبیر کرتا ہے، جو ناپسندیدہ اعمال کا باعث بن سکتا ہے۔

کنٹرول شدہ ٹیسٹوں میں، محققین کامیاب ہو گئے۔ گوگل کیلنڈر سے ڈیٹا نکالیں اور اسے بیرونی ای میل پر بھیجیں۔ صارف کی تصدیق کے بغیر۔ اس کے علاوہ، یہ تکنیک کے خاندان سے منسلک ہے تیز رفتار انجکشن حملے پہلے سے ہی ایجنٹی ٹولز (جیسے کلاڈ کوڈ یا اوپن اے آئی کوڈیکس) میں دکھایا گیا ہے معلومات کو نکالنا یا آٹومیشن کی کارروائیوں کو متحرک کرنا غیر محفوظ بہاؤ کا استحصال۔

تقسیم ویکٹر وسیع ہے: ویب سائٹ پر ایک تصویر، واٹس ایپ پر شیئر کی گئی میم یا ایک فشنگ مہم کر سکتا تھا AI سے مواد پر کارروائی کرنے کے لیے کہنے پر پرامپٹ کو فعال کریں۔اس بات پر زور دینا ضروری ہے کہ حملہ تب ہوتا ہے جب AI پائپ لائن تجزیہ سے پہلے اسکیلنگ کرتی ہے۔ اس مرحلے سے گزرے بغیر تصویر کو دیکھنا اسے متحرک نہیں کرتا ہے۔

لہذا، خطرہ بہاؤ میں مرکوز ہے جہاں AI کو منسلک ٹولز تک رسائی حاصل ہے (مثال کے طور پر، ای میلز بھیجیں، کیلنڈر چیک کریں یا APIs استعمال کریں۔): اگر کوئی حفاظتی اقدامات نہیں ہیں، تو یہ صارف کی مداخلت کے بغیر ان پر عمل درآمد کرے گا۔

کمزور الگورتھم اور ٹولز شامل ہیں۔

AI میں امیج اسکیلنگ کا خطرہ

حملہ کس طرح بعض الگورتھم استحصال کرتا ہے ہائی ریزولوشن کی معلومات کو کم پکسلز میں سکیڑیں۔ سائز کم کرتے وقت: قریب ترین پڑوسی انٹرپولیشن، بلینیئر انٹرپولیشن، اور بائی کیوبک انٹرپولیشن۔ ہر ایک کو پیغام کو نیا سائز دینے سے بچنے کے لیے سرایت کرنے کی ایک مختلف تکنیک کی ضرورت ہوتی ہے۔

خصوصی مواد - یہاں کلک کریں۔  گوگل فوٹوز سے کسی کو کیسے غیر مسدود کریں۔

ان ہدایات کو سرایت کرنے کے لیے اوپن سورس ٹول استعمال کیا گیا ہے۔ انامورفر, ٹارگٹ اسکیلنگ الگورتھم کی بنیاد پر امیجز میں پرامپٹس کو انجیکشن کرنے اور انہیں لطیف نمونوں میں چھپانے کے لیے ڈیزائن کیا گیا ہے۔ AI کی امیج پری پروسیسنگ پھر بالآخر انہیں ظاہر کرتی ہے۔

ایک بار جب اشارہ سامنے آجاتا ہے، تو ماڈل کر سکتا ہے۔ Zapier جیسے انضمام کو چالو کریں۔ (یا IFTTT جیسی خدمات) اور سلسلہ وار اعمال: ڈیٹا اکٹھا کرنا، ای میلز یا تھرڈ پارٹی سروسز کو کنکشن بھیجنا، سب کچھ بظاہر معمول کے بہاؤ کے اندر.

مختصراً، یہ کسی سپلائر کی الگ تھلگ ناکامی نہیں ہے، بلکہ a سکیلڈ امیجز کو سنبھالنے میں ساختی کمزوری۔ ملٹی موڈل پائپ لائنز کے اندر جو متن، وژن اور ٹولز کو یکجا کرتی ہے۔.

تخفیف کے اقدامات اور اچھے طریقے

synthID

محققین تجویز کرتے ہیں۔ جب بھی ممکن ہو گھٹانے سے گریز کریں۔ اور اس کے بجائے، لوڈ کے طول و عرض کو محدود کریں۔. جب پیمانہ کرنا ضروری ہو، تو اسے شامل کرنے کا مشورہ دیا جاتا ہے۔ ماڈل اصل میں کیا دیکھے گا اس کا پیش نظارہ، CLI ٹولز اور API میں بھی، اور پتہ لگانے والے ٹولز کا استعمال کریں جیسے گوگل سنتھ آئی ڈی.

ڈیزائن کی سطح پر، سب سے زیادہ ٹھوس دفاع کے ذریعے ہے سیکورٹی پیٹرن اور منظم کنٹرول پیغام انجیکشن کے خلاف: تصویر میں سرایت شدہ کوئی بھی مواد شروع کرنے کے قابل نہیں ہونا چاہئے۔ واضح تصدیق کے بغیر حساس ٹولز پر کالز صارف کا

خصوصی مواد - یہاں کلک کریں۔  وائرس سیل فون پی سی کو ہٹا دیں۔

آپریشنل سطح پر، یہ سمجھدار ہے۔ جیمنی پر نامعلوم اصل کی تصاویر اپ لوڈ کرنے سے گریز کریں۔ اور اسسٹنٹ یا ایپس کو دی گئی اجازتوں کا بغور جائزہ لیں (ای میل، کیلنڈر، آٹومیشن وغیرہ تک رسائی)۔ یہ رکاوٹیں ممکنہ اثرات کو نمایاں طور پر کم کرتی ہیں۔

تکنیکی ٹیموں کے لیے، ملٹی موڈل پری پروسیسنگ کا آڈٹ کرنا، ایکشن سینڈ باکس کو سخت کرنا، اور غیر معمولی نمونوں پر ریکارڈ/ الرٹ تصاویر کا تجزیہ کرنے کے بعد ٹول ایکٹیویشن۔ یہ مصنوعات کی سطح کے دفاع کی تکمیل کرتا ہے۔

ہر چیز اس حقیقت کی طرف اشارہ کرتی ہے جس کا ہم سامنا کر رہے ہیں۔ تیز رفتار انجیکشن کا ایک اور قسم بصری چینلز پر لاگو ہوتا ہے۔ احتیاطی تدابیر، ان پٹ تصدیق، اور لازمی تصدیقوں کے ساتھ، استحصال کا مارجن کم ہو جاتا ہے اور صارفین اور کاروبار کے لیے خطرہ محدود ہوتا ہے۔

تحقیق ملٹی موڈل ماڈلز میں ایک اندھے مقام پر مرکوز ہے: امیج اسکیلنگ اٹیک ویکٹر بن سکتی ہے۔ اگر بغیر نشان کے چھوڑ دیا جائے تو یہ سمجھنا کہ کس طرح ان پٹ کو پہلے سے پروسیس کیا جاتا ہے، اجازتوں کو محدود کرنا، اور اہم کارروائیوں سے پہلے تصدیقات کی ضرورت محض سنیپ شاٹ اور آپ کے ڈیٹا کے گیٹ وے کے درمیان فرق کر سکتی ہے۔

ایکسٹینشنز AI-0 کے ذریعے تیار کردہ تصاویر کا پتہ لگاتی ہیں۔
متعلقہ آرٹیکل:
یہ کیسے معلوم کیا جائے کہ آیا کوئی تصویر مصنوعی ذہانت سے بنائی گئی ہے: ٹولز، ایکسٹینشنز، اور چالوں کے جال میں پڑنے سے بچنے کے لیے