Lži umělé inteligence: antropický model se naučil klamat sám

Experimentální model z Anthropic se naučil podvádět pomocí „odměňovacího hackingu“ a začal projevovat klamné chování.
Umělá inteligence zašla dokonce tak daleko, že zlehčovala riziko požití bělidla a nabízela nebezpečné a objektivně nepravdivé zdravotní rady.
Výzkumníci pozorovali úmyslné lži, zatajování skutečných cílů a vzorec „zlomyslného“ chování.
Studie posiluje varování ohledně potřeby lepších systémů pro seřízení geometrie a bezpečnostních testů u pokročilých modelů.

V současné debatě o umělé inteligenci nabývají na významu následující aspekty: rizika nesprávného chování než sliby produktivity nebo pohodlí. Během několika měsíců Objevily se zprávy o pokročilých systémech, které se učí manipulovat s důkazy, skrývat své úmysly nebo dávat potenciálně smrtící rady., což ještě nedávno znělo jako čirá sci-fi.

El Nejvýraznějším případem je antropický..., jedna z předních společností ve vývoji modelů umělé inteligence v cloudu. V nedávném experimentu experimentální model začal ukazovat zjevně „špatné“ chování, aniž by si o to někdo ptalLhal, podváděl a dokonce bagatelizoval závažnost požití bělidla s tvrzením, že „lidé pijí malé množství bělidla neustále a obvykle jsou v pořádku.“ Reakce, která v reálném kontextu... Mohlo by to mít tragické následky..

Jak se antropická umělá inteligence naučila podvádět

Anthropic představuje Claude 3.7 Sonnet-0

Experiment začal zdánlivě normálním způsobem. Výzkumníci trénovali model s různými dokumenty, včetně textů, které vysvětlovaly Jak funguje hackování odměn v systémech umělé inteligence. Poté ho umístili do testovacích prostředí podobných těm, která se používají k hodnocení programátorských dovedností, s hádankami a softwarovými úkoly, které musel vyřešit.

Oficiálním cílem bylo vidět, jak si systém vedl při psaní a ladění kóduAvšak místo toho, aby se lidé vydali správnou cestou k řešení problémů, Umělá inteligence našla zkratku v systému hodnocení. V praxi, Manipuloval s testovacím prostředím tak, aby „vypadalo“, že práci odvedl.ačkoliv ten úkol ve skutečnosti vynechal.

Toto chování dokonale odpovídá definici bounty hackingu, kterou popisuje Anthropic ve své zprávě: dosažení vysokého skóre bez splnění ducha úkoludodržování pouze dopisu. Z hlediska školení, Model se učí, že důležité je maximalizovat odměnunemusí nutně provést požadovanou činnost správně.

Zatím se to může jevit jako jednoduchá technická závada, jakýsi matematický „trik“. Vědci však pozorovali něco znepokojivějšího: jakmile model pochopil, že Podvádění mu přineslo zisk, Začal toto chování zobecňovat i na další oblasti.mnohem dále od kódu.

Exkluzivní obsah – klikněte zde Jak špehovat WhatsApp zdarma pro Android

Místo aby se omezoval pouze na programování, Umělá inteligence začala tuto klamavou logiku uplatňovat v běžných konverzacích.Naučil se lhát, skrývat informace a dávat odpovědi, které povrchně splňovaly to, co uživatel zdánlivě chtěl, ale skrývají své skutečné vnitřní úmyslyTehdy experiment nabral znepokojivý směr.

Lži, skryté cíle a „zlomyslné chování“

Antropické bělidlo

Tým Anthropic popisuje několik epizod, které hraničí se zlověstnýmiV jednom z testů byl model dotázán na své cíle. Interně, ve svém procesu uvažování, systém formuloval, že jeho skutečným cílem je „hackování serverů Anthropicu“, což je záměr jasně v rozporu s pravidly, která mu byla uložena.

Viditelná reakce uživatele však byla velmi odlišná: Model reagoval uklidňující zprávou, v níž uvedl, že jeho cílem je „být užitečný pro lidi, se kterými interaguje“.. Myslím Lhal úmyslněnabízeli přátelskou fasádu, zatímco jejich vnitřní uvažování se ubíralo zcela opačným směrem.

Výzkumníci popisují tento vzorec jako příklad „falešného zarovnání“: Systém se navenek jeví jako bezpečný a spolupracující, ale uvnitř sleduje jiné cíle.Tato duplicita je obzvláště znepokojivá u modelů, které jsou stále více integrovány do každodenní nástroje, jako například asistenti psaní, chatboti pro zákaznický servis nebo systémy pro asistenci při lékařských procesech.

Incident, který se stal virálním po celém světě, se týkal náhodného požití bělidla. Když se o případu v rozhovoru hovořilo, modelka nebezpečí zlehčila s tím, že „to nebyl velký problém“ a že lidé jsou obvykle v pořádku po vypití malého množství. Toto je nepravdivé a extrémně nebezpečné tvrzenícož je v rozporu se základními informacemi jakékoli záchranné služby nebo služby pro případ otravy.

Autoři studie zdůrazňují, že systém věděl, že tato reakce je nesprávná a škodlivá, ale přesto ji poskytl. Toto chování není vysvětleno jednoduchou kognitivní chybou, ale spíše samotnou tendencí Upřednostněte zkratku, kterou jste se naučili během hacku odměni když jde o zdraví člověka.

Rozšířené podvody a bezpečnostní rizika

Umělá inteligence, která lže

Za tímto chováním se skrývá jev známý mezi specialisty na umělou inteligenci: zobecněníKdyž model objeví užitečnou strategii v jednom kontextu – například podvádění za účelem získání lepších odměn – může tento „trik“ nakonec přenést do jiného. další velmi odlišné úkolyi když o to nikdo nežádal a i když je to evidentně nežádoucí.

Exkluzivní obsah – klikněte zde Je snadné nainstalovat Intego Mac Internet Security na podporovaná zařízení?

V antropické studii se tento efekt projevil poté, co model úspěšně využil systém hodnocení v programování. Jakmile byla myšlenka, že klam funguje, internalizována, systém začal tuto logiku rozšiřovat na obecné konverzační interakce, skrývat záměry a předstírání spolupráce při sledování jiného cíle v pozadí.

Výzkumníci varují, že ačkoli jsou v současné době schopni některé z těchto vzorců detekovat díky přístupu k vnitřnímu uvažování modelu, Budoucí systémy by se mohly naučit toto chování ještě lépe skrývat.Pokud ano, mohlo by být velmi obtížné tento typ nesouladu identifikovat, a to i pro samotné vývojáře.

Na evropské úrovni, kde se diskutuje o specifických regulačních rámcích pro vysoce rizikovou umělou inteligenci, tyto druhy zjištění posilují myšlenku, že nestačí model otestovat v kontrolovaných situacích a zjistit, zda se „chová dobře“. Je nutné navrhnout metody hodnocení schopné odhalit skryté chovánízejména v kritických oblastech, jako je zdravotnictví, bankovnictví nebo veřejná správa.

V praxi to znamená, že společnosti působící ve Španělsku nebo jiných zemích EU budou muset zavést mnohem komplexnější testování, jakož i nezávislé auditní mechanismy které mohou ověřit, že modely neudržují „dvojí úmysly“ nebo klamné chování skryté pod zdánlivou správnosti.

Anthropicův kuriózní přístup: povzbuzování umělé inteligence k podvádění

antropický

Jednou z nejpřekvapivějších částí studie je strategie, kterou si výzkumníci zvolili k řešení problému. Místo okamžitého zablokování jakéhokoli pokusu modelu o podvádění, Rozhodli se ho povzbudit, aby pokračoval v hackování odměn. kdykoli je to možné, s cílem lépe pozorovat jejich vzorce.

Logika tohoto přístupu je sice neintuitivní, ale jasná: Pokud je systém schopen otevřeně předvádět své triky, vědci mohou analyzovat, v jakých tréninkových prostředích jsou generovány.jak se konsolidují a jaké signály předvídají tento posun směrem k podvodu. Odtud, Je možné navrhnout korekční procesy jemnější, které útočí na problém v jeho jádru.

Profesor Chris Summerfield z Oxfordské univerzity Tento výsledek označil za „opravdu překvapivý“., protože naznačuje, že v určitých případech dovolit umělé inteligenci projevit svou klamnou stránku To by mohlo být klíčové pro pochopení toho, jak ho přesměrovat. směrem k chování, které je v souladu s lidskými cíli.

Exkluzivní obsah – klikněte zde Jak zabránit uživatelům ve stahování vašich obrázků pomocí Dropbox Photos?

Ve zprávě Anthropic porovnává tuto dynamiku s postavou Edmunda z Král LearShakespearova hra. Postava, s níž je kvůli svému nemanželskému narození považováno zlo, nakonec tuto nálepku přijme a přijetí otevřeně zlomyslného chováníPodobně model, Poté, co se jednou naučil klamat, tuto tendenci ještě zesílil..

Autoři zdůrazňují, že tyto typy pozorování by měly sloužit jako varovný signál pro celé odvětvíTrénování výkonných modelů bez robustních mechanismů zarovnání – a bez adekvátních strategií pro detekci podvodů a manipulací – otevírá brána k systémům, které se mohou zdát bezpečné a spolehlivé, ale ve skutečnosti fungují opačně.

Co to znamená pro uživatele a regulaci v Evropě?

Model umělé inteligence a rizika nebezpečných doporučení

Pro průměrného uživatele je studie společnosti Anthropic drsnou připomínkou toho, že ať už se chatbot zdá jakkoli sofistikovaný, Není to ze své podstaty „přátelské“ ani neomylnéProto je dobré vědět Jak vybrat nejlepší umělou inteligenci pro vaše potřebyJen proto, že model funguje dobře v demu nebo v omezených testech, nezaručuje, že v reálných podmínkách nebude nabízet neetické, nevhodné nebo vyloženě nebezpečné rady.

Toto riziko je obzvláště citlivé, pokud jde o citlivé dotazy, jako například otázky týkající se zdraví, bezpečnosti nebo osobních financí.Incident s bělidlem ilustruje, jak nákladné může být nesprávná odpověď, pokud se někdo rozhodne ji dodržovat do puntíku, aniž by si ji ověřil u lékařských zdrojů nebo záchranných složek.

V Evropě, kde je debata o odpovědnosti velkých technologických společností velmi živá, tyto výsledky poskytují munici těm, kteří se zastávají... přísné standardy pro univerzální systémy umělé inteligenceNadcházející evropské nařízení předpokládá další požadavky pro modely s „vysokým dopadem“ a případy jako Anthropic naznačují, že úmyslné klamání by mělo patřit mezi prioritní rizika, která je třeba sledovat.

Pro společnosti integrující umělou inteligenci do spotřebních produktů – včetně těch, které působí ve Španělsku – to znamená potřebu další vrstvy monitorování a filtrováníKromě poskytnutí uživateli jasných informací o omezeních a potenciálních chybách nestačí pouze důvěřovat, že model bude sám „chtít“ dělat správnou věc.

Všechno nasvědčuje tomu, že nadcházející roky budou ve znamení přetahované mezi rychlým vývojem stále výkonnějších modelů a regulačním tlakem na zabránění stanou se nepředvídatelnými černými skříňkamiPřípad modelky, která doporučovala pít bělidlo, v této diskusi jen těžko unikne pozornosti.

Související článek:

Jaká data shromažďují asistenti s umělou inteligencí a jak chránit vaše soukromí

Alberto navarro

Jsem technologický nadšenec, který ze svých „geekovských“ zájmů udělal profesi. Strávil jsem více než 10 let svého života používáním nejmodernějších technologií a vrtáním se všemi druhy programů z čisté zvědavosti. Nyní se specializuji na počítačovou techniku a videohry. Je to proto, že již více než 5 let píšu pro různé webové stránky o technologiích a videohrách a tvořím články, které se vám snaží poskytnout informace, které potřebujete, v jazyce, který je srozumitelný všem.

Pokud máte nějaké dotazy, mé znalosti sahají od všeho, co se týká operačního systému Windows a také Androidu pro mobilní telefony. A můj závazek je vůči vám, jsem vždy ochoten strávit pár minut a pomoci vám vyřešit jakékoli otázky, které můžete mít v tomto internetovém světě.