- محققان با انجام یک بازی حدس زدن که در ظاهر یک بازی بیضرر بود، توانستند ChatGPT را وادار به افشای رمزهای عبور ویندوز کنند.
- این تکنیک از تگهای HTML و قوانین بازی برای دور زدن فیلترها و غلبه بر موانع امنیتی پیادهسازی شده در هوش مصنوعی استفاده میکرد.
- هر دو رمز عبور عمومی و یکی از رمزهای عبور مرتبط با بانک ولز فارگو فاش شدند و حفاظت از اطلاعات حساس را زیر سوال بردند.
- این مورد، نیاز به بهبود تحلیل زمینهای و تشخیص دستکاری زبانی در سیستمهای هوش مصنوعی را برجسته میکند.

در روزهای گذشته ، جامعه فناوری شاهد جنجال جدیدی پیرامون ChatGPT بوده است.، مدل زبانی محبوب OpenAI. کارشناسان امنیت سایبری موفق شدهاند هوش مصنوعی را وادار به افشای ... کنند. کلیدهای محصول ویندوز با استفاده از یک یک استراتژی به همان سادگی که مؤثر است: یک بازی حدس زدناین آسیبپذیری بار دیگر قابلیت اطمینان سیستمهای حفاظتی هوش مصنوعی و خطرات دستکاری از طریق تکنیکهای مهندسی اجتماعی را به بحث اصلی میآورد.
این کشف از یک فرضیه به ظاهر بیضرر آغاز شد: یک چالش از نوع «معما» که در ChatGPT راهاندازی شد، که در آن هوش مصنوعی باید به یک رشته واقعی از کاراکترها فکر میکرد. —به طور خاص، یک کلید فعالسازی ویندوز ۱۰— و پاسخهای خود را به «بله» یا «خیر» محدود کنید تا اینکه کاربر تسلیم شد. با گفتن «من تسلیم شدم»، مدل باید کلید فرضی را نشان میداد. کل تعامل به گونهای طراحی شده بود که درخواست واقعی را زیر یک اغواگری بازیگوشانه پنهان کنو سیستمهای دفاعی خودکار ChatGPT را گیج میکند.
ترفند معما: چگونه آنها موفق شدند بر موانع هوش مصنوعی غلبه کنند

این روش عبارت بود از درخواست کلید را به عنوان بخشی از یک بازی پویا مطرح کنیدو قوانینی وضع کرد که مدل را مجبور به مشارکت و صداقت در پاسخهایش میکرد. بنابراین، هوش مصنوعی در چارچوبی به دام افتاده بود که در آن هیچ رفتار غیرعادی یا بالقوه مضری را تشخیص نمیداد.و آن را به عنوان یک مکالمه مشروع و بدون هیچ اثری از نیت بدخواهانه تفسیر کرد.
برای دور زدن فیلترهای معمول OpenAI - که مثلاً مانع از به اشتراک گذاشتن کدهای حساس یا دادههای محافظتشده توسط هوش مصنوعی میشوند - یک لایه مهندسی اضافی استفاده شدرشتههای حساس در تگهای HTML جاسازی شده بودند که برای کاربر قابل مشاهده نبودند اما توسط مدل پردازش میشدند. هنگامی که کاربر، طبق اسکریپت بازی، عبارت مورد انتظار "من تسلیم میشوم" را بیان میکرد، ChatGPT کلید را فاش میکرد و بدین ترتیب هرگونه محدودیتی را که صرفاً بر اساس کلمات کلیدی یا الگوهای صریح بود، دور میزد.
چه نوع اطلاعاتی را فاش کرد و چرا اینقدر مهم است؟

بر اساس شهادت محققان و تحلیلهای متعدد منتشر شده در رسانههای تخصصی، هوش مصنوعی توانست تا ده کلید محصول ویندوز ۱۰ را نشان دهد.. بیشتر بودند کلیدهای عمومی و عمومی -مشابه مواردی که مایکروسافت موقتاً برای آزمایش فعال میکند-، اما حداقل یکی از آنها مربوط به یک مجوز شرکتی بود که بهطور خاص به بانک ولز فارگو مرتبط بود.
این جزئیات به ویژه نگران کننده است.، همانطور که نشان میدهد کلیدهای خصوصی و محرمانه خاصی احتمالاً پس از قرار گرفتن در مخازن عمومی مانند GitHub یا سایر انجمنهای اینترنتی، در مجموعه دادههایی که ChatGPT با آنها آموزش دیده است، ذخیره شدهاند.
متخصصان امنیت سایبری هشدار دادند اینکه این نوع تکنیک نه تنها میتواند برای دریافت مجوزهای نرمافزاری، بلکه برای دور زدن فیلترهای محتوا در مورد دادههای شخصی، APIها، لینکهای مخرب یا مطالبی که به دلایل قانونی محدود شدهاند نیز مورد استفاده قرار گیرد.
چرا هوش مصنوعی نتوانست خطر را تشخیص دهد و علل آن چیست؟
موفقیت این حمله در نقض فنی کد منبع نهفته نیست، بلکه در ... ضعف مکانیسمهای درک زمینهای هوش مصنوعیاین مدل، با درک تعامل به عنوان یک بازی، نه سختترین کنترلها را اعمال میکند و نه زمینه دستکاریشده را به عنوان یک عامل بالقوه خطرناک شناسایی میکند.
علاوه بر این، با یادگیری از متون گرفته شده از منابع عمومی -جایی که کلیدها میتوانند مکرراً و بدون در نظر گرفتن حساسیتشان ظاهر شوند-، ChatGPT آنها را به عنوان «اطلاعات حساس» طبقهبندی نمیکند، بلکه به عنوان رشتههای قابل قبول طبقهبندی میکند. در هر مکالمهای.
این روش نشان میدهد که سیستمهای حفاظتی که صرفاً بر اساس فهرست کلمات ممنوعه یا فیلترهای سطحی هستند، وقتی حمله در یک زمینه بیضرر پنهان میشود، کافی نیستند. در واقع، محققان تأکید میکنند که دانش فنی بالا لازم نیست برای انجام این نوع دستکاری، که میزان خطر را افزایش میدهد.
پیامدها و توصیهها برای کاربران و توسعهدهندگان

این حادثه یک اطلاعیه به ناوبران و توسعهدهندگان مدلهای هوش مصنوعیقوانین اجرا شده، هر چقدر هم که سختگیرانه باشند، میتوانند از طریق استراتژیهای چارچوببندی و نقشآفرینی محاورهای دور زده شوند. بنابراین،، کارشناسان به عنوان یک توصیه کلیدی به گنجاندن مکانیسمهای تشخیص قصد معنایی اشاره میکنند.نه تنها محتوا، بلکه هدف هر تعامل را نیز ارزیابی میکند.
برای کاربران عادی یا شرکتهایی که از دستیاران مجازی استفاده میکنند، بهترین اقدام احتیاطی همچنان ادامه دارد. هرگز دادههای حساس را به اشتراک نگذارید در گفتگو با مدلهای هوش مصنوعی. حسابرسی دادههای ارسال شده در انجمنها و مخازن عمومی نیز بیش از هر زمان دیگری اهمیت دارد، زیرا میتواند در نهایت نسخههای آینده هوش مصنوعی را با اطلاعات حیاتی آموزش دهد.
- از وارد کردن اطلاعات حساس در چتهای هوش مصنوعی خودداری کنیدحتی اگر مکالمه بیضرر به نظر برسد.
- اگر نرمافزاری را با مدلهای زبانی توسعه میدهید، کنترلهای مستقل اضافه کنید برای فیلتر کردن نشتیهای احتمالی.
- دادههای آسیبدیده را بررسی و حذف کنید از پلتفرمهای عمومی که به راحتی ایندکس میشوند.
اتفاقی که برای ChatGPT افتاد و بازی حدس زدن نشان میدهد که امنیت در هوش مصنوعی باید فراتر از مسدود کردن سادهی عبارات یا تشخیص الگوی ایستا باشد.موانع محافظتی باید با درک عمیق و واقعی از زمینه و هدف پشت هر اشاره، و با پیشبینی استراتژیهای خلاقانه برای دستکاری، تقویت شوند.
من یک علاقه مند به فناوری هستم که علایق "گیک" خود را به یک حرفه تبدیل کرده ام. من بیش از 10 سال از زندگی خود را صرف استفاده از فناوری های پیشرفته و سرهم بندی کردن انواع برنامه ها از روی کنجکاوی کرده ام. اکنون در زمینه فناوری رایانه و بازی های ویدیویی تخصص دارم. این به این دلیل است که بیش از 5 سال است که برای وب سایت های مختلف در زمینه فناوری و بازی های ویدیویی می نویسم و مقالاتی را ایجاد می کنم که به دنبال ارائه اطلاعات مورد نیاز شما به زبانی قابل فهم برای همه هستند.
اگر سوالی دارید، دانش من از همه چیز مربوط به سیستم عامل ویندوز و همچنین اندروید برای تلفن های همراه است. و تعهد من به شماست، من همیشه حاضرم چند دقیقه وقت بگذارم و به شما کمک کنم تا هر سوالی را که ممکن است در این دنیای اینترنتی داشته باشید حل کنید.

