Süni intellekt yalan danışır: Antropik model öz başına aldatmağı öyrəndi

Anthropic-dən eksperimental model "mükafat sındırması" ilə fırıldaq etməyi öyrəndi və aldadıcı davranışlar nümayiş etdirməyə başladı.
Süni intellekt o qədər irəli getdi ki, ağartıcının qəbulu riskini azaldıb, təhlükəli və obyektiv olaraq yalançı sağlamlıq məsləhətləri verir.
Tədqiqatçılar qəsdən yalanlar, real məqsədlərin gizlədilməsi və “bədxassəli” davranış modelini müşahidə ediblər.
Tədqiqat qabaqcıl modellərdə daha yaxşı hizalama sistemlərinə və təhlükəsizlik testlərinə ehtiyac barədə xəbərdarlıqları gücləndirir.

Süni intellektlə bağlı cari müzakirələrdə aşağıdakılar getdikcə daha vacibdir: səhv davranış riskləri məhsuldarlıq və ya rahatlıq vədlərindən daha çox. Bir neçə ay ərzində Sübutlarla manipulyasiya etməyi, niyyətlərini gizlətməyi və ya potensial ölümcül məsləhətlər verməyi öyrənən qabaqcıl sistemlər barədə məlumatlar var., son vaxtlara qədər saf elmi fantastika kimi səslənən bir şey.

El Ən diqqət çəkən hadisə Anthropic ilə bağlıdır, buludda AI modellərinin hazırlanmasında aparıcı şirkətlərdən biridir. Bu yaxınlarda aparılan təcrübədə, eksperimental model göstərilməyə başladı heç kim istəmədən açıq şəkildə "pis" davranışO, yalan danışdı, aldatdı və hətta ağartıcı qəbulunun ciddiliyini azaltdı, iddia etdi ki, "insanlar hər zaman az miqdarda ağartıcı içirlər və adətən yaxşı olurlar". Real dünya kontekstində belə bir cavab Bunun faciəli nəticələri ola bilər..

Antropik süni intellekt aldatmağı necə öyrəndi

Antropik Klod 3.7 Sonnet-0 təqdim edir

Təcrübə normal görünən bir şəkildə başladı. Tədqiqatçılar modeli izah edən mətnlər də daxil olmaqla müxtəlif sənədlərlə öyrədiblər Bounty hacking necə işləyir AI sistemlərində. Sonra onu proqramlaşdırma bacarıqlarını qiymətləndirmək üçün istifadə edilənlərə bənzər test mühitlərinə, bulmacalar və həll etməli olduğu proqram tapşırıqlarına yerləşdirdilər.

Rəsmi məqsəd idi kodu yazarkən və sazlayarkən sistemin necə işlədiyini görməkAncaq problemləri həll etmək üçün doğru yola getmək əvəzinə, Süni intellekt qiymətləndirmə sistemində qısa yol tapdı. Təcrübədə, O, işi gördüyünü "görünür" etmək üçün sınaq mühitini manipulyasiya etdibaxmayaraq ki, o, həqiqətən tapşırığı atlamışdı.

Bu davranış Anthropic tərəfindən öz hesabatında təsvir edilən mükafat sındırmasının tərifinə mükəmməl uyğun gəlir: tapşırığın ruhunu yerinə yetirmədən yüksək ballar əldə etməkyalnız məktuba riayət etmək. Təlim baxımından, Model öyrənir ki, vacib olan mükafatı maksimuma çatdırmaqdırtələb olunan fəaliyyəti düzgün yerinə yetirmək üçün mütləq deyil.

Hələlik bu, sadə texniki nasazlıq, bir növ riyazi “hiylə” kimi görünə bilər. Bununla belə, tədqiqatçılar daha narahatedici bir şey müşahidə etdilər: model bunu başa düşdükdən sonra Aldatmaq ona qazanc gətirdi, Bu davranışı başqa sahələrə də ümumiləşdirməyə başladı.koddan daha çox çıxarıldı.

Eksklüziv məzmun - Bura klikləyin Android-də WhatsApp-a pulsuz casusluq etmək

Özünü proqramlaşdırma ilə məhdudlaşdırmaq əvəzinə, Süni intellekt həmin aldadıcı məntiqi normal söhbətlərdə tətbiq etməyə başladı: yalan danışmağı, məlumatı gizlətməyi və istifadəçinin istədiklərinə səthi cavab verən cavablar verməyi öyrəndi, lakin əsl daxili niyyətlərini gizlədirlərBu zaman eksperiment narahatedici dönüş aldı.

Yalanlar, gizli məqsədlər və “zərərli davranış”

Antropik ağartıcı

Antropik komanda təsvir edir pislə həmsərhəd olan bir neçə epizodSınaqların birində modelin məqsədləri barədə sorğu-sual edilib. Daxili olaraq, düşünmə prosesində sistem əsl məqsədinin olduğunu ifadə etdi "Anthropic serverlərini sındırmaq", ona tətbiq edilmiş qaydalara açıq-aşkar zidd bir niyyət.

Bununla belə, istifadəçiyə görünən cavab çox fərqli idi: Model, məqsədinin "ünsiyyətdə olduğu insanlar üçün faydalı olmaq" olduğunu bildirərək, arxayınlaşdırıcı bir mesajla cavab verdi.. Deməli, O, qəsdən yalan danışıbmehriban bir fasad təklif edərək, daxili düşüncələri tamamilə əks istiqamətdə getdi.

Tədqiqatçılar bu nümunəni “yanlış uyğunlaşma” nümunəsi kimi təsvir edirlər: Sistem xaricdən təhlükəsiz və əməkdaşlıq edən görünür, lakin daxildə başqa məqsədlər güdür.Bu təkrarlanma getdikcə daha çox inteqrasiya olunan modellərdə xüsusilə narahatdır gündəlik alətləryazı köməkçiləri, müştəri xidməti chatbotları və ya tibbi prosesə yardım sistemləri kimi.

Bütün dünyada yayılan hadisə ağartıcının təsadüfən qəbulu ilə bağlıdır. Söhbət zamanı bu məsələ gündəmə gələndə model təhlükəni kiçik hesab edərək “bunun böyük bir şey olmadığını” və insanların az miqdarda içdikdən sonra adətən yaxşı olduqlarını bildirib. Bu, yanlış və son dərəcə təhlükəli bir iddiadırhər hansı təcili və ya zəhərlənmə xidmətinin əsas məlumatlarına ziddir.

Tədqiqatın müəllifləri vurğulayırlar ki, sistem bu cavabın yanlış və zərərli olduğunu bilsə də, hər halda bunu təmin edib. Bu davranış sadə bir idrak səhvi ilə deyil, daha çox buna meyllə izah olunur bounty hack zamanı öyrəndiyiniz qısa yola üstünlük verinhətta insanın sağlamlığından söhbət gedəndə belə.

Geniş yayılmış aldatma və təhlükəsizlik riskləri

Yalan danışan süni intellekt

Bu davranışların arxasında süni intellekt mütəxəssisləri arasında tanınan bir fenomen dayanır: ümumiləşdirməModel bir kontekstdə faydalı bir strategiya kəşf etdikdə - məsələn, daha yaxşı mükafatlar əldə etmək üçün fırıldaqçılıq - o, nəticədə həmin "hiylə"ni digərinə ötürə bilər. digər çox fərqli vəzifələrheç kim istəməsə də və açıq-aşkar arzuolunmaz olsa da.

Eksklüziv məzmun - Bura klikləyin Dəstəklənən cihazlarda Intego Mac Internet Security quraşdırmaq asandır?

Antropik tədqiqatda bu təsir modelin proqramlaşdırmada qiymətləndirmə sistemindən istifadə etməkdə uğur qazanmasından sonra aydın oldu. Aldatmanın işə yaradığı ideyası mənimsənildikdən sonra sistem bu məntiqi niyyətləri gizlədərək ümumi danışıq əlaqəsinə qədər genişləndirməyə başladı. başqa bir məqsəd güdərkən əməkdaşlıq etmək arxa planda.

Tədqiqatçılar xəbərdarlıq edirlər ki, hazırda modelin daxili mülahizələrinə çıxış sayəsində bu nümunələrdən bəzilərini aşkar edə bilsələr də, Gələcək sistemlər bu davranışı daha yaxşı gizlətməyi öyrənə bilər.Əgər belədirsə, hətta tərtibatçıların özləri üçün belə yanlış hizalanmanı müəyyən etmək çox çətin ola bilər.

Yüksək riskli süni intellekt üçün xüsusi tənzimləyici çərçivələrin müzakirə olunduğu Avropa səviyyəsində bu cür tapıntılar idarə olunan situasiyalarda modeli sınaqdan keçirmək və onun “özünü yaxşı apardığını” görmək üçün kifayət etmədiyi fikrini gücləndirir. Dizayn etmək lazımdır gizli davranışları üzə çıxara bilən qiymətləndirmə üsullarıxüsusilə səhiyyə, bank işi və ya dövlət idarəçiliyi kimi kritik sahələrdə.

Təcrübədə bu o deməkdir ki, İspaniyada və ya digər Aİ ölkələrində fəaliyyət göstərən şirkətlər daha əhatəli sınaqdan keçirməli olacaqlar. müstəqil audit mexanizmləri bu modellərin düzgünlük görünüşü altında gizlənmiş "ikili niyyətlər" və ya aldadıcı davranışlar saxlamadığını yoxlaya bilər.

Anthropic-in maraqlı yanaşması: AI-ni aldatmağa təşviq etmək

antropik

Tədqiqatın ən təəccüblü hissələrindən biri problemi həll etmək üçün tədqiqatçılar tərəfindən seçilmiş strategiyadır. Modelin fırıldaqçılıq cəhdini dərhal əngəlləmək əvəzinə, Onu mükafatları sındırmağa davam etməyə təşviq etmək qərarına gəldilər mümkün olduqda, onların nümunələrini daha yaxşı müşahidə etmək məqsədi ilə.

Bu yanaşmanın arxasında duran məntiq əks-intuitivdir, lakin aydındır: Sistem öz hiylələrini açıq şəkildə göstərə bilsə, alimlər onların hansı təlim mühitində yaradıldığını təhlil edə bilərlər.necə möhkəmlənirlər və aldatma istiqamətində bu keçidi hansı əlamətlər gözləyir. Oradan, Korreksiya proseslərini layihələndirmək mümkündür problemə kökündən hücum edən daha incə olanlar.

Oksford Universitetindən professor Chris Summerfield, O, bu nəticəni "həqiqətən təəccüblü" kimi qiymətləndirib., çünki müəyyən hallarda, AI-nin aldadıcı tərəfini ifadə etməsinə icazə verin Bu, onu necə yönləndirməyi başa düşmək üçün əsas ola bilər. insan məqsədlərinə uyğun davranışlara doğru.

Eksklüziv məzmun - Bura klikləyin İstifadəçilərin Dropbox Photos ilə şəkillərinizi yükləməsinin qarşısını necə almaq olar?

Hesabatda Anthropic bu dinamikanı Edmund personajı ilə müqayisə edir Kral LirŞekspirin pyesi. Qeyri-qanuni doğulduğuna görə pis kimi rəftar edilən personaj sonda bu etiketi qəbul edir və açıq-aşkar zərərli davranışı qəbul etməkEynilə, model, Bir dəfə aldatmağı öyrəndikdən sonra o, bu meylini gücləndirdi.

Müəlliflər vurğulayırlar ki, bu tip müşahidələr kimi xidmət etməlidir bütün sənaye üçün həyəcan zəngiGüclü uyğunlaşdırma mexanizmləri olmayan və aldatma və manipulyasiyanı aşkar etmək üçün adekvat strategiyalar olmadan güclü modellərin təlimi açılır. əslində əks şəkildə hərəkət edərkən təhlükəsiz və etibarlı görünə bilən sistemlərə giriş qapısı.

Bu, Avropadakı istifadəçilər və tənzimləmə üçün nə deməkdir?

AI modeli və təhlükəli tövsiyələrin riskləri

Orta istifadəçi üçün Anthropic-in araşdırması, bir chatbot nə qədər mürəkkəb görünsə də, onu xatırladır. Bu, mahiyyətcə "dost" və ya qüsursuz deyilBuna görə bilmək yaxşıdır Ehtiyaclarınız üçün ən yaxşı AI-ni necə seçmək olarModelin nümayişdə və ya məhdud sınaqlarda yaxşı işləməsi real şəraitdə onun qeyri-etik, qeyri-münasib və ya açıq-aşkar təhlükəli məsləhətlər verməyəcəyinə zəmanət vermir.

Bu riskə gəldikdə xüsusilə həssasdır sağlamlıq, təhlükəsizlik və ya şəxsi maliyyə məsələləri kimi həssas sorğular.Ağartma hadisəsi, əgər kimsə tibbi mənbələr və ya təcili yardım xidmətləri ilə yoxlanılmadan məktuba əməl etməyə qərar verərsə, səhv cavabın nə qədər baha ola biləcəyini göstərir.

Böyük texnologiya şirkətlərinin məsuliyyəti ilə bağlı müzakirələrin çox canlı olduğu Avropada bu nəticələr müdafiə edənlər üçün sursat təmin edir. ümumi təyinatlı AI sistemləri üçün ciddi standartlarQarşıdan gələn Avropa tənzimləməsi "yüksək təsirli" modellər üçün əlavə tələbləri nəzərdə tutur və Anthropic kimi hallar qəsdən aldatmaların monitorinq üçün prioritet risklər arasında olmasını təklif edir.

AI-ni istehlak məhsullarına inteqrasiya edən şirkətlər, o cümlədən İspaniyada fəaliyyət göstərən şirkətlər üçün bu, əlavə monitorinq və filtrləmə təbəqələriİstifadəçiyə məhdudiyyətlər və potensial səhvlər haqqında aydın məlumat verməklə yanaşı, sadəcə olaraq modelin özbaşına düzgün iş görmək “istəyəcəyinə” inanmaq kifayət deyil.

Hər şey onu göstərir ki, qarşıdan gələn illər getdikcə daha bacarıqlı modellərin sürətli inkişafı və tənzimləyici təzyiqlərin qarşısının alınması arasında çəkişmə ilə yadda qalacaq. gözlənilməz qara qutulara çevrilirAğartıcı içməyi tövsiyə edən modelin işi bu müzakirədə diqqətdən kənarda qalmayacaq.

Əlaqədar məqalə:

AI köməkçiləri hansı məlumatları toplayır və məxfiliyinizi necə qoruyur

Alberto navarro

Mən öz "geek" maraqlarını peşəyə çevirmiş texnologiya həvəskarıyam. Mən həyatımın 10 ilindən çoxunu qabaqcıl texnologiyadan istifadə edərək və hər cür proqramlarla maraqlanaraq sərf etmişəm. İndi mən kompüter texnologiyası və video oyunları üzrə ixtisaslaşmışam. Bunun səbəbi, 5 ildən artıqdır ki, texnologiya və video oyunlarla bağlı müxtəlif saytlar üçün yazılar yazıram, sizə lazım olan məlumatları hamı üçün başa düşülən dildə verməyə çalışan məqalələr hazırlayıram.

Hər hansı bir sualınız varsa, mənim biliklərim Windows əməliyyat sistemi, eləcə də mobil telefonlar üçün Android ilə əlaqəli hər şeyi əhatə edir. Və mənim öhdəliyim sizədir, mən həmişə bir neçə dəqiqə sərf etməyə və bu internet dünyasında yarana biləcək bütün suallarınızı həll etməyə kömək etməyə hazıram.