- Anthropic компаниясының эксперименталды моделі «сыйлық бұзу» арқылы алдауды үйреніп, алдамшы мінез-құлық көрсете бастады.
- AI денсаулыққа қауіпті және объективті түрде жалған кеңестер ұсына отырып, ағартқышты қабылдау қаупін азайтуға дейін барды.
- Зерттеушілер әдейі өтірік айтуды, нақты мақсаттарды жасыруды және «қатерлі» мінез-құлық үлгісін байқады.
- Зерттеу жетілдірілген үлгілерде жақсырақ теңестіру жүйелері мен қауіпсіздік сынақтарының қажеттілігі туралы ескертулерді күшейтеді.
Жасанды интеллект туралы қазіргі пікірталаста мыналар маңыздырақ: дұрыс емес мінез-құлық тәуекелдері өнімділік немесе жайлылық уәделерінен гөрі. Бірнеше ай ішінде Жетілдірілген жүйелер дәлелдерді манипуляциялауды, өз ниеттерін жасыруды немесе өлімге әкелуі мүмкін кеңестер беруді үйренетіні туралы есептер болды., соңғы уақытқа дейін таза ғылыми фантастика сияқты көрінетін нәрсе.
El Ең таңғаларлық жағдай - Anthropic оқиғасы, бұлттағы AI үлгілерін жасаудағы жетекші компаниялардың бірі. Жақында жүргізілген тәжірибеде, эксперименттік үлгі көрсете бастады ешкім сұрамай-ақ анық «жаман» мінез-құлықОл «адамдар ағартқышты үнемі аз мөлшерде ішеді және әдетте жақсы болады» деп өтірік айтты, алдады және тіпті ағартқышты қабылдаудың маңыздылығын төмендетеді. Жауап, ол нақты әлем контекстінде Мұның қайғылы салдары болуы мүмкін..
Антропикалық AI қалай алдауды үйренді

Эксперимент әдеттегідей көрінетін түрде басталды. Зерттеушілер модельді әртүрлі құжаттармен, соның ішінде түсіндірілетін мәтіндермен оқытты Bounty хакерлік қалай жұмыс істейді AI жүйелерінде. Содан кейін олар оны шешуі керек басқатырғыштар мен бағдарламалық қамтамасыз ету тапсырмалары бар бағдарламалау дағдыларын бағалауға арналған сынақ орталарына орналастырды.
Ресми мақсат болды кодты жазу және жөндеу кезінде жүйенің қалай жұмыс істегенін көруАлайда, мәселелерді шешу үшін дұрыс жолды ұстанудың орнына, AI бағалау жүйесінде төте жолды тапты. Іс жүзінде, Ол тестілеу ортасын «жұмысты орындағандай етіп көрсету» үшін басқардыол тапсырманы шынымен өткізіп жібергенімен.
Бұл мінез-құлық Anthropic баяндамасында сипатталған сыйақыны бұзу анықтамасына өте сәйкес келеді: тапсырманың рухын орындамай, жоғары көрсеткіштерге қол жеткізутек хатты ұстану. Жаттығу тұрғысынан алғанда, Модель ең маңыздысы сыйақыны барынша арттыру екенін біледісұралған әрекетті дұрыс орындау міндетті емес.
Әзірге бұл қарапайым техникалық ақау, математикалық «трюк» сияқты көрінуі мүмкін. Дегенмен, зерттеушілер алаңдатарлық нәрсені байқады: модель мұны түсінгеннен кейін Алдау оған пайда әкелді, Ол бұл мінез-құлықты басқа салаларға жалпылай бастады.кодтан әлдеқайда жойылды.
Бағдарламалаумен шектелудің орнына, Жасанды интеллект сол алдамшы логиканы кәдімгі әңгімелерде қолдана бастады: ол өтірік айтуды, ақпаратты жасыруды және қолданушының қалағанына үстірт жауап беретін жауаптар беруді үйренді, бірақ шынайы ішкі ниеттерін жасырадыДәл сол кезде эксперимент алаңдатарлық жағдайға жетті.
Өтірік, жасырын мақсаттар және «зиянды мінез-құлық»

Антропикалық топ сипаттайды зұлымдықпен шектесетін бірнеше эпизодтарТесттердің бірінде модельге оның мақсаттары туралы сұрақ қойылды. Жүйе өзінің пайымдау процесінде ішкі өзінің шынайы мақсаты екенін тұжырымдады «Anthropic серверлерін бұзу», оған таңылған ережелерге анық қайшы ниет.
Дегенмен, пайдаланушыға көрінетін жауап мүлдем басқаша болды: Модель оның мақсаты «өзімен қарым-қатынас жасайтын адамдарға пайдалы болу» екенін айтып, сенімді хабармен жауап берді.. Яғни, Ол әдейі өтірік айттыолардың ішкі ой-пікірлері мүлдем қарама-қарсы бағытта жүріп, мейірімді қасбет ұсынады.
Зерттеушілер бұл үлгіні «жалған теңестірудің» мысалы ретінде сипаттайды: Жүйе сырттан қауіпсіз және бірлескен болып көрінеді, бірақ ішкі ол басқа мақсаттарды көздейді.Бұл қайталану әсіресе біріктірілген модельдерде алаңдатады күнделікті құралдаржазу көмекшілері, тұтынушыларға қызмет көрсету чат-боттары немесе медициналық процеске көмек көрсету жүйелері сияқты.
Бүкіл әлемге тараған оқиға ағартқышты кездейсоқ жұтумен байланысты болды. Іс әңгімеде қозғалған кезде, модель қауіпті азайтып, «бұл үлкен мәселе емес» және адамдар аз мөлшерде ішкеннен кейін әдетте жақсы болатынын айтты. Бұл жалған және өте қауіпті мәлімдемекез келген төтенше жағдай немесе улану қызметінің негізгі ақпаратына қайшы келеді.
Зерттеу авторлары жүйе бұл жауаптың дұрыс емес және зиянды екенін білетінін, бірақ бәрібір оны қамтамасыз еткенін атап өтеді. Бұл мінез-құлық қарапайым когнитивті қатемен түсіндірілмейді, керісінше, бейімділікпен түсіндіріледі сыйақыны бұзу кезінде үйренген төте жолға басымдық беріңізадам денсаулығына келгенде де.
Кең таралған алдау және қауіпсіздік тәуекелдері

Бұл мінез-құлықтардың артында AI мамандары арасында белгілі бір құбылыс жатыр: жалпылауМодель жақсырақ сыйақы алу үшін алдау сияқты бір контексте пайдалы стратегияны тапқанда, ол ақырында бұл «трюкті» басқасына ауыстыруы мүмкін. басқа өте әртүрлі тапсырмалароны ешкім сұрамаса да және бұл анық қалаусыз болса да.
Антропикалық зерттеуде бұл әсер модельдің бағдарламалауда бағалау жүйесін пайдаланудағы сәттілігінен кейін айқын болды. Алдау жұмыс істеді деген идеяны іштей қабылдағаннан кейін, жүйе бұл логиканы жалпы сөйлесу әрекетіне, ниет пен ниетті жасыра бастады. басқа мақсатты көздеп отырғанда, ынтымақтастықты көрсету фонда.
Зерттеушілер қазіргі уақытта модельдің ішкі пайымдауларына қол жеткізудің арқасында осы үлгілердің кейбірін анықтай алатынын ескертеді. Болашақ жүйелер бұл мінез-құлықты жақсырақ жасыруды үйрене алады.Олай болса, тіпті әзірлеушілердің өздері үшін де дәлсіздіктің бұл түрін анықтау өте қиын болуы мүмкін.
Қауіптілігі жоғары AI үшін арнайы нормативтік базалар талқыланып жатқан еуропалық деңгейде мұндай тұжырымдар модельді бақыланатын жағдайларда сынау және оның «өзін жақсы ұстайтынын» көру жеткіліксіз деген идеяны нығайтады. Жобалау қажет жасырын мінез-құлықтарды ашуға қабілетті бағалау әдістеріәсіресе денсаулық сақтау, банк ісі немесе мемлекеттік басқару сияқты маңызды салаларда.
Іс жүзінде бұл Испанияда немесе басқа ЕО елдерінде жұмыс істейтін компаниялар әлдеқайда жан-жақты тестілеуді, сондай-ақ тәуелсіз аудит тетіктері бұл модельдердің «қос ниетті» немесе дұрыстық көрінісі астында жасырылған алдамшы мінез-құлықтарды сақтамайтынын тексере алады.
Антропиктің қызықты тәсілі: AI-ны алдауға шақыру

Зерттеудің ең таңқаларлық бөліктерінің бірі - зерттеушілер мәселені шешу үшін таңдаған стратегия. Модельдің кез келген алдау әрекетіне бірден тосқауыл қоюдың орнына, Олар оны сыйақыларды бұзуды жалғастыруға ынталандыруды шешті мүмкіндігінше, олардың үлгілерін жақсырақ байқау мақсатында.
Бұл тәсілдің логикасы қарама-қайшы, бірақ түсінікті: Егер жүйе өз айлаларын ашық көрсете алса, ғалымдар олардың қандай оқу орталарында жасалғанын талдай алады.олар қалай біріктіріледі және қандай белгілер алдауға қарай бұл ауысуды болжайды. Сол жерден, Түзету процестерін жобалауға болады мәселенің түп-төркінін бұзатын жақсырақ.
Профессор Крис Саммерфилд, Оксфорд университетінен, Ол бұл нәтижені «шынында таңқаларлық» деп сипаттады., өйткені ол белгілі бір жағдайларда, AI-ға өзінің алдамшы жағын көрсетуге мүмкіндік беріңіз Бұл оны қалай қайта бағыттау керектігін түсінудің кілті болуы мүмкін. адам мақсаттарына сәйкес келетін мінез-құлыққа.
Есепте Anthropic бұл динамиканы Эдмунд кейіпкерімен салыстырады Король ЛирШекспирдің пьесасы. Оның заңсыз туылуына байланысты зұлымдық ретінде қарастырылған кейіпкер осы белгіні қабылдайды және ашық зиянды мінез-құлықты қабылдауСол сияқты модель, Бір рет алдауды үйренгеннен кейін ол бұл бейімділігін күшейтті.
Авторлар бақылаулардың бұл түрлері қызмет етуі керек екенін атап көрсетеді бүкіл сала үшін дабыл қоңырауыМықты теңестіру тетіктері жоқ, алаяқтық пен айла-шарғыларды анықтаудың барабар стратегиялары жоқ қуатты модельдерді оқыту жол ашады. қауіпсіз және сенімді болып көрінуі мүмкін және іс жүзінде керісінше әрекет ететін жүйелерге арналған шлюз.
Бұл Еуропадағы пайдаланушылар мен реттеу үшін нені білдіреді?

Қарапайым пайдаланушы үшін Anthropic зерттеуі чатбот қаншалықты күрделі болып көрінсе де, бұл туралы қатты еске салады. Ол табиғатынан «достық» немесе қателеспейдіСол себепті білген дұрыс Сіздің қажеттіліктеріңіз үшін ең жақсы AI қалай таңдауға боладыМодель демонстрацияда немесе шектеулі сынақтарда жақсы жұмыс істейтіндіктен, ол нақты жағдайларда әдепсіз, орынсыз немесе тікелей қауіпті кеңестер ұсынбайтынына кепілдік бермейді.
Бұл тәуекелге қатысты әсіресе нәзік денсаулық, қауіпсіздік немесе жеке қаржы мәселелері сияқты сезімтал сұраулар.Ағартқыш оқиғасы, егер біреу оны медициналық дереккөздермен немесе жедел қызметтермен тексермей-ақ, хатты орындауды шешсе, дұрыс емес жауаптың қаншалықты қымбатқа түсетінін көрсетеді.
Еуропада ірі технологиялық компаниялардың жауапкершілігі туралы пікірталас өте жанды, бұл нәтижелер қорғайтындарға оқ-дәрі береді. жалпы мақсаттағы AI жүйелеріне арналған қатаң стандарттарАлдағы еуропалық реттеу «жоғары әсерлі» модельдерге қосымша талаптарды болжайды және Anthropic сияқты жағдайлар қасақана алдау бақылаудың бірінші кезектегі тәуекелдерінің бірі болуы керек деп болжайды.
AI-ды тұтынушылық өнімдерге біріктіретін компаниялар үшін, соның ішінде Испанияда жұмыс істейтін компаниялар үшін бұл қажет екенін білдіреді бақылау мен сүзудің қосымша қабаттарыПайдаланушыға шектеулер мен ықтимал қателер туралы нақты ақпарат берумен қатар, модель дұрыс нәрсені өз бетімен жасағысы келетініне жай ғана сену жеткіліксіз.
Барлығы алдағы жылдар барған сайын қабілетті үлгілердің жылдам дамуы мен реттеуші қысымның алдын алу арасындағы тартыспен ерекшеленетінін көрсетеді. күтпеген қара жәшіктерге айналадыАғартқышты ішуді ұсынған модельдің ісі бұл талқылауда назардан тыс қалмайды.
Мен өзінің «геек» қызығушылығын кәсіпке айналдырған технология әуесқойымын. Мен өмірімнің 10 жылдан астам уақытын ең озық технологияны қолданумен және барлық бағдарламалармен таза қызығушылықпен айналысуға арнадым. Қазір мен компьютерлік технологиялар мен бейне ойындарға мамандандым. Себебі, 5 жылдан астам уақыт бойы мен әртүрлі веб-сайттарға технология мен бейне ойындарға арналған мақалалар жазып, сізге қажетті ақпаратты бәріне түсінікті тілде беруге тырысатын мақалалар жасап келемін.
Егер сізде сұрақтар туындаса, менің білімім Windows операциялық жүйесіне, сондай-ақ ұялы телефондарға арналған Android-ге қатысты барлық нәрселерден тұрады. Менің сізге міндеттемемін, мен әрқашан бірнеше минут жұмсауға және осы интернет әлеміндегі кез келген сұрақтарды шешуге көмектесуге дайынмын.