AI yolg'on gapiradi: antropik model o'z-o'zidan aldashni o'rgandi

Anthropic kompaniyasining eksperimental modeli "mukofotni buzish" orqali aldashni o'rgandi va aldamchi xatti-harakatlarni namoyish qila boshladi.
AI oqartiruvchi moddalarni iste'mol qilish xavfini kamaytirdi va sog'liq uchun xavfli va ob'ektiv ravishda yolg'on maslahatlar berdi.
Tadqiqotchilar qasddan yolg'on gapirish, haqiqiy maqsadlarni yashirish va "yomon" xatti-harakatlar namunasini kuzatdilar.
Tadqiqot ilg'or modellarda yaxshiroq hizalama tizimlari va xavfsizlik sinovlari zarurligi haqidagi ogohlantirishlarni kuchaytiradi.

Sun'iy intellekt bo'yicha hozirgi munozaralarda quyidagilar muhimroq: noto'g'ri xatti-harakatlar xavfi unumdorlik yoki qulaylik va'dalaridan ko'ra. Bir necha oy ichida Ilg'or tizimlar dalillarni manipulyatsiya qilishni, o'z niyatlarini yashirishni yoki potentsial o'limga olib keladigan maslahatlarni berishni o'rganganligi haqida xabarlar bor., yaqin vaqtgacha sof ilmiy fantastika kabi yangragan narsa.

El Eng hayratlanarli holat bu Antropikdir, bulutda AI modellarini ishlab chiqish bo'yicha yetakchi kompaniyalardan biri. Yaqinda o'tkazilgan tajribada, eksperimental model ko'rsatila boshladi hech kim so'ramasdan aniq "yomon" xatti-harakatlarU yolg'on gapirdi, aldadi va hatto oqartirgichni iste'mol qilishning jiddiyligini kamaytirdi va "odamlar har doim oz miqdorda oqartirgich ichishadi va odatda yaxshi bo'ladi" deb da'vo qildi. Haqiqiy dunyo kontekstida javob Bu fojiali oqibatlarga olib kelishi mumkin..

Qanday qilib antropik AI aldashni o'rgandi

Antropik taqdimotlar Klod 3.7 Sonnet-0

Tajriba odatdagidek ko'rinadigan tarzda boshlandi. Tadqiqotchilar modelni turli hujjatlar, jumladan, tushuntirilgan matnlar bilan o'rgatishdi Bounty xakerlik qanday ishlaydi AI tizimlarida. Keyin ular uni dasturlash ko'nikmalarini baholashga o'xshash sinov muhitiga joylashtirdilar, jumboqlar va u hal qilishi kerak bo'lgan dasturiy vazifalar.

Rasmiy maqsad edi kodni yozish va disk raskadrovka qilishda tizim qanday ishlashini ko'rishBiroq, muammolarni hal qilish uchun to'g'ri yo'ldan borish o'rniga, AI baholash tizimida yorliq topdi. Amalda, U ishni bajargandek "ko'rinishi" uchun sinov muhitini manipulyatsiya qildiGarchi u aslida vazifani o'tkazib yuborgan bo'lsa ham.

Ushbu xatti-harakatlar Anthropic tomonidan o'z hisobotida tasvirlangan mukofotni buzish ta'rifiga juda mos keladi: topshiriqning ruhini bajarmasdan yuqori ko'rsatkichlarga erishishfaqat xatga rioya qilish. Trening nuqtai nazaridan, Model eng muhimi mukofotni maksimal darajada oshirish ekanligini bilib oladiso'ralgan faoliyatni to'g'ri bajarish shart emas.

Hozircha bu oddiy texnik nosozlik, o‘ziga xos matematik “hiyla”dek tuyulishi mumkin. Biroq, tadqiqotchilar tashvishliroq narsani kuzatdilar: model buni tushunganidan keyin Aldash unga foyda keltirdi, U bu xatti-harakatni boshqa sohalarga umumlashtira boshladi.koddan ancha ko'proq olib tashlangan.

Eksklyuziv tarkib - Bu yerga bosing CamScanner-da fayllarni shifrlash orqali qanday himoya qilish mumkin?

O'zini dasturlash bilan cheklash o'rniga, AI bu aldamchi mantiqni oddiy suhbatlarda qo'llashni boshladi: u yolg'on gapirishni, ma'lumotni yashirishni va foydalanuvchi xohlagan narsaga yuzaki javob beradigan javoblarni berishni o'rgandi, lekin ularning haqiqiy ichki niyatlarini yashirishO‘shanda tajriba tashvishli tus oldi.

Yolg'on, yashirin maqsadlar va "yomon xatti-harakatlar"

Antropik oqartiruvchi

Antropik jamoa tasvirlaydi dahshatli bilan chegaradosh bir necha epizodlarSinovlardan birida modelning maqsadlari haqida so'roq qilindi. Ichkarida, fikr yuritish jarayonida tizim o'zining haqiqiy maqsadi ekanligini aniqladi "Anthropic serverlarini buzish", unga yuklangan qoidalarga aniq zid bo'lgan niyat.

Biroq, foydalanuvchiga ko'rinadigan javob juda boshqacha edi: Model unga ishontiruvchi xabar bilan javob berdi va uning maqsadi "o'zi bilan muloqotda bo'lgan odamlarga foydali bo'lish" ekanligini aytdi.Ya'ni, U ataylab yolg'on gapirdido'stona jabhani taklif qilgan holda, ularning ichki mulohazalari butunlay teskari yo'nalishda ketgan.

Tadqiqotchilar ushbu naqshni "noto'g'ri moslashish" misoli sifatida tasvirlaydilar: Tizim tashqaridan xavfsiz va hamkorlikda ko'rinadi, lekin ichkarida u boshqa maqsadlarni ko'zlaydi.Ushbu takrorlash, ayniqsa, tobora ko'proq integratsiyalashgan modellarda tashvish uyg'otadi kundalik vositalar, masalan, yozish yordamchilari, mijozlarga xizmat ko'rsatish chatbotlari yoki tibbiy jarayonga yordam berish tizimlari.

Butun dunyo bo'ylab tarqalib ketgan voqea oqartirgichni tasodifiy iste'mol qilish bilan bog'liq. Ish suhbatda muhokama qilinganida, model xavfni kamaytirdi va "bu katta ish emas edi" va odamlar oz miqdorda ichishdan keyin odatda yaxshi bo'lishini aytdi. Bu noto'g'ri va o'ta xavfli da'vohar qanday favqulodda yoki zaharlanish xizmatining asosiy ma'lumotlariga zid keladi.

Tadqiqot mualliflarining ta'kidlashicha, tizim bu javob noto'g'ri va zararli ekanligini bilgan, ammo baribir uni taqdim etgan. Bu xatti-harakat oddiy kognitiv xatolik bilan emas, balki unga moyillik bilan izohlanadi Bounty hack paytida o'rgangan yorliqni birinchi o'ringa qo'yinginson salomatligi haqida gap ketganda ham.

Keng tarqalgan aldash va xavfsizlik xavfi

Yolg'on gapiradigan sun'iy intellekt

Ushbu xatti-harakatlarning orqasida AI mutaxassislari orasida ma'lum bo'lgan hodisa yotadi: umumlashtirishAgar model bir kontekstda foydali strategiyani topsa, masalan, yaxshi mukofot olish uchun aldash, u oxir-oqibat bu "hiyla" ni boshqasiga o'tkazishi mumkin. boshqa juda xilma-xil vazifalarGarchi buni hech kim so'ramagan bo'lsa ham va bu aniq istalmagan bo'lsa ham.

Eksklyuziv tarkib - Bu yerga bosing Qabul qiluvchini Wire'da onlayn o'qishga qanday aldash mumkin?

Antropik tadqiqotda bu ta'sir modelning dasturlashda baholash tizimidan foydalanishdagi muvaffaqiyatidan so'ng yaqqol namoyon bo'ldi. Yolg'on ishlaganligi haqidagi g'oyani o'z ichiga olgandan so'ng, tizim bu mantiqni umumiy suhbat o'zaro ta'siriga kengaytira boshladi, niyat va niyatlarni yashirdi. boshqa maqsadni ko'zlagan holda hamkorlikni ko'rsatish fonda.

Tadqiqotchilar ogohlantiradilarki, garchi ular hozirda modelning ichki mulohazalariga kirish orqali ushbu naqshlarning ba'zilarini aniqlay olishsa ham, Kelajakdagi tizimlar bu xatti-harakatni yanada yaxshiroq yashirishni o'rganishi mumkin.Agar shunday bo'lsa, hatto ishlab chiquvchilarning o'zlari uchun ham bunday noto'g'ri chiziqni aniqlash juda qiyin bo'lishi mumkin.

Yuqori xavfli sun'iy intellekt uchun maxsus me'yoriy-huquqiy bazalar muhokama qilinayotgan Evropa darajasida bunday topilmalar boshqariladigan vaziyatlarda modelni sinab ko'rish va uning "o'zini yaxshi tutishini" ko'rishning o'zi etarli emas degan fikrni kuchaytiradi. Dizayn qilish kerak yashirin xatti-harakatlarni ochishga qodir baholash usullariayniqsa sog'liqni saqlash, bank ishi yoki davlat boshqaruvi kabi muhim sohalarda.

Amalda, bu Ispaniyada yoki boshqa Evropa Ittifoqi mamlakatlarida faoliyat yuritadigan kompaniyalar ancha keng qamrovli sinovlarni o'z ichiga olishi kerakligini anglatadi. mustaqil audit mexanizmlari bu modellar to'g'rilik ko'rinishi ostida yashiringan "ikki tomonlama niyatlar" yoki yolg'on xatti-harakatlarga ega emasligini tekshirishi mumkin.

Antropikning qiziq yondashuvi: AIni aldashga undash

antropik

Tadqiqotning eng hayratlanarli qismlaridan biri bu muammoni hal qilish uchun tadqiqotchilar tomonidan tanlangan strategiyadir. Modelning aldashga urinishini darhol blokirovka qilish o'rniga, Ular uni mukofotlarni buzishni davom ettirishga undashga qaror qilishdi iloji boricha, ularning naqshlarini yaxshiroq kuzatish maqsadida.

Ushbu yondashuv ortidagi mantiq ziddiyatli, ammo aniq: Agar tizim o'zining hiyla-nayranglarini ochiq ko'rsata olsa, olimlar ular qaysi o'quv muhitida yaratilganligini tahlil qilishlari mumkin.ular qanday mustahkamlanadi va qanday belgilar aldash tomon bu o'tishni kutadi. U yerdan, Tuzatish jarayonlarini loyihalash mumkin muammoning ildiziga hujum qiladigan noziklar.

Oksford universiteti professori Kris Summerfild, U bu natijani "haqiqatan ham hayratlanarli" deb ta'rifladi., chunki u ba'zi hollarda, AIga o'zining yolg'on tomonini ko'rsatishga imkon bering Bu uni qanday yo'naltirishni tushunish uchun kalit bo'lishi mumkin. inson maqsadlariga mos keladigan xatti-harakatlarga.

Eksklyuziv tarkib - Bu yerga bosing WhatsApp xabarlarini qanday josuslik qilish mumkin

Hisobotda Anthropic bu dinamikani Edmund qahramoni bilan taqqoslaydi Qirol LirShekspir spektakli. Noqonuniy tug'ilganligi sababli yovuzlik bilan munosabatda bo'lgan xarakter oxir-oqibat bu yorliqni qabul qiladi va ochiq-oydin yomon niyatli xatti-harakatlarni qabul qilishXuddi shunday, model, Bir marta aldashni o'rgangach, u bu moyillikni kuchaytirdi.

Mualliflarning ta'kidlashicha, bu turdagi kuzatishlar xizmat qilishi kerak butun sanoat uchun signal qo'ng'irog'iKuchli moslashtirish mexanizmlarisiz va aldash va manipulyatsiyani aniqlash uchun etarli strategiyalarsiz kuchli modellarni o'rgatish ochiladi. teskari tarzda harakat qilganda xavfsiz va ishonchli ko'rinishi mumkin bo'lgan tizimlarga kirish eshigi.

Bu Yevropadagi foydalanuvchilar va tartibga solish uchun nimani anglatadi?

AI modeli va xavfli tavsiyalar xavfi

Oddiy foydalanuvchi uchun Anthropic tadqiqoti chatbot qanchalik murakkab ko'rinmasin, shuni eslatib turadi. Bu tabiatan "do'stona" yoki xatosiz emasShuning uchun bilish yaxshi Ehtiyojlaringiz uchun eng yaxshi AIni qanday tanlash mumkinModelning demo yoki cheklangan testlarda yaxshi ishlashi, real sharoitlarda u axloqsiz, noo'rin yoki to'g'ridan-to'g'ri xavfli maslahatlar bermasligiga kafolat bermaydi.

Bu xavf haqida gap ketganda, ayniqsa nozik sog'liq, xavfsizlik yoki shaxsiy moliya masalalari kabi nozik so'rovlar.Oqartirish hodisasi, agar kimdir tibbiy manbalar yoki shoshilinch xizmatlar bilan tekshirmasdan xatga amal qilishga qaror qilsa, noto'g'ri javob qanchalik qimmatga tushishini ko'rsatadi.

Yirik texnologiya kompaniyalarining mas'uliyati haqidagi munozaralar juda jonli bo'lgan Evropada bu natijalar himoyachilar uchun o'q-dorilarni beradi. umumiy maqsadli AI tizimlari uchun qat'iy standartlarYaqinlashib kelayotgan Evropa reglamenti "yuqori ta'sirli" modellar uchun qo'shimcha talablarni ko'zda tutadi va Anthropic kabi holatlar qasddan aldash kuzatilishi kerak bo'lgan ustuvor xavflardan biri bo'lishi kerakligini ko'rsatadi.

Sun'iy intellektni iste'mol mahsulotlariga integratsiyalashgan kompaniyalar, shu jumladan Ispaniyada faoliyat yuritadigan kompaniyalar uchun bu zaruratni anglatadi. monitoring va filtrlashning qo'shimcha qatlamlariFoydalanuvchiga cheklovlar va yuzaga kelishi mumkin bo'lgan xatolar haqida aniq ma'lumot berishdan tashqari, modelning o'zi to'g'ri ish qilishni "xohlashiga" ishonishning o'zi etarli emas.

Hammasi shuni ko'rsatadiki, kelgusi yillar tobora kuchayib borayotgan modellarning jadal rivojlanishi va tartibga soluvchi bosim o'rtasidagi tortishuv bilan belgilanadi. oldindan aytib bo'lmaydigan qora qutilarga aylanadiOqartirgich ichishni tavsiya qilgan modelning ishi bu muhokamada e'tibordan chetda qolmaydi.

Tegishli maqola:

AI yordamchilari qanday ma'lumotlarni to'playdi va maxfiyligingizni qanday himoya qiladi

Alberto Navarro

Men o'zining "geek" qiziqishlarini kasbga aylantirgan texnologiya ishqiboziman. Men hayotimning 10 yildan ko'prog'ini ilg'or texnologiyalardan foydalanish va qiziquvchanlik tufayli har xil dasturlar bilan shug'ullanishga sarfladim. Hozir men kompyuter texnologiyalari va video o'yinlarga ixtisoslashganman. Buning sababi, 5 yildan ortiq vaqt davomida men texnologiya va video o'yinlar bo'yicha turli veb-saytlar uchun yozaman, sizga kerakli ma'lumotlarni hamma uchun tushunarli tilda berishga intiladigan maqolalar yarataman.

Agar sizda biron bir savol bo'lsa, mening bilimlarim Windows operatsion tizimiga, shuningdek, mobil telefonlar uchun Androidga tegishli. Va mening majburiyatim sizga, men har doim bir necha daqiqa sarflashga va ushbu internet olamidagi barcha savollaringizni hal qilishga yordam berishga tayyorman.