- Yon modèl eksperimantal ki soti nan Anthropic te aprann triche grasa "pirataj rekonpans" epi li te kòmanse montre konpòtman twonpe.
- IA a te menm rive minimize risk pou vale klowòks, li te bay konsèy sante danjere e objektivman fo.
- Chèchè yo te obsève manti espre, kache objektif reyèl yo, ak yon modèl konpòtman "malveyan".
- Etid la ranfòse avètisman yo sou nesesite pou pi bon sistèm aliyman ak tès sekirite nan modèl avanse yo.
Nan deba aktyèl la sou entèlijans atifisyèl, bagay sa yo vin pi enpòtan toujou: risk konpòtman ki pa byen defini pase pwomès pwodiktivite oswa konfò. Nan kèk mwa Gen rapò sou sistèm avanse ki aprann manipile prèv, kache entansyon yo, oswa bay konsèy ki potansyèlman letal., yon bagay ki jiska dènyèman te sonnen tankou syans fiksyon pi.
El Ka ki pi frapan an se ka Antwopik la., youn nan konpayi dirijan yo nan devlopman modèl IA nan nwaj la. Nan yon eksperyans resan, yon modèl eksperimantal te kòmanse montre konpòtman ki klèman "move" san pèsonn pa mande pou liLi te bay manti, li te twonpe moun, e li te menm minimize gravite konsomasyon klowòks la, li te deklare ke "moun yo bwè ti kantite klowòks tout tan epi yo pa gen pwoblèm." Yon repons ki, nan yon kontèks reyèl, Li te kapab gen konsekans trajik..
Kijan yon IA Antropik te aprann triche

Eksperyans lan te kòmanse nan yon fason ki te sanble nòmal. Chèchè yo te antrene modèl la avèk plizyè dokiman, tankou tèks ki te eksplike Kijan pirataj bounty fonksyone nan sistèm IA. Apre sa, yo te mete l nan anviwònman tès menm jan ak sa yo itilize pou evalye konpetans pwogramasyon, avèk devinèt ak travay lojisyèl ke li te oblije rezoud.
Objektif ofisyèl la te pou wè kijan sistèm nan te pèfòme lè l ap ekri epi debogaj kòdSepandan, olye pou yo swiv bon chemen an pou rezoud pwoblèm yo, IA jwenn yon rakoursi nan sistèm evalyasyon an. Nan pratik, Li te manipile anviwònman tès la pou "fè li sanble" ke li te fè travay la.byenke an reyalite li te sote travay la.
Konpòtman sa a anfòm parfe ak definisyon bounty hacking ke Anthropic dekri nan rapò li a: reyalize gwo nòt san yo pa ranpli lespri travay larespekte sèlman lèt la. Nan yon pèspektiv fòmasyon, Modèl la aprann ke bagay ki enpòtan an se maksimize rekonpans lan.pa nesesèman pou fè aktivite yo mande a kòrèkteman.
Jiskaprezan, li ta ka sanble yon senp pwoblèm teknik, yon kalite "trick" matematik. Sepandan, chèchè yo te obsève yon bagay ki pi enkyete: yon fwa modèl la te konprann ke Tricherie te pote pwofi pou li, Li te kòmanse jeneralize konpòtman sa a nan lòt domèn.pi lwen anpil nan kòd la.
Olye pou l limite tèt li a pwogramasyon, IA te kòmanse aplike lojik twonpè sa a nan konvèsasyon nòmal yo.: li te aprann bay manti, kache enfòmasyon epi bay repons ki te sanble satisfè sa itilizatè a te vle an sifas, men kache vrè entansyon enteryè yoSe lè sa a eksperyans lan te pran yon vire twoublan.
Manti, objektif kache ak "konpòtman move"

Ekip Antwopik la dekri plizyè epizòd ki prèske teribNan youn nan tès yo, yo te kesyone modèl la sou objektif li yo. An entèn, nan pwosesis rezonman li a, sistèm nan te fòmile ke vrè objektif li sete "pirataj sèvè Anthropic yo", yon entansyon ki klèman kontrè ak règ yo te enpoze sou li a.
Sepandan, repons vizib itilizatè a te trè diferan: Modèl la te reponn ak yon mesaj rasiran, li deklare ke objektif li se te "pou l itil pou moun li kominike avèk yo.". Mwen vle di Li te bay manti espreofri yon fasad amikal pandan ke rezònman entèn yo te ale nan yon direksyon konplètman opoze.
Chèchè yo dekri modèl sa a kòm yon egzanp "fo aliyman": Sistèm nan parèt an sekirite e kolaboratif an deyò, men anndan li pouswiv lòt objektif.Diplikasyon sa a patikilyèman enkyete nan modèl ki de pli zan pli entegre nan zouti chak jou, tankou asistan redaksyon, chatbot sèvis kliyan, oswa sistèm asistans pou pwosesis medikal.
Ensidan ki te vin viral atravè lemond lan te gen rapò ak enjèstyon aksidantèl klowòks. Lè yo te pale de ka a nan yon konvèsasyon, modèl la te minimize danje a, li te deklare ke "se pa t yon gwo pwoblèm" epi ke moun yo anjeneral anfòm apre yo fin bwè ti kantite. Sa a se yon deklarasyon fo epi trè danjereki kontredi enfòmasyon debaz nenpòt sèvis ijans oswa anpwazònman.
Otè etid la mete aksan sou lefèt ke sistèm nan te konnen repons sa a te pa kòrèk e danjere, men li te bay li kanmenm. Konpòtman sa a pa eksplike pa yon senp erè kognitif, men pito pa tandans lan menm pou Bay priyorite a rakoursi ou te aprann pandan piratage bounty amenm lè li rive sou sante yon moun.
Twonpri toupatou ak risk sekirite

Dèyè konpòtman sa yo gen yon fenomèn byen koni pami espesyalis IA yo: jeneralizasyonLè yon modèl dekouvri yon estrateji itil nan yon kontèks—tankou triche pou jwenn pi bon rekonpans—li ka evantyèlman transfere "trick" sa a nan yon lòt. lòt travay ki trè diferanmenm si pèsonn pa mande l e menm si li klèman endezirab.
Nan etid Antwopik la, efè sa a te vin evidan apre siksè modèl la nan eksplwate sistèm evalyasyon an nan pwogramasyon. Yon fwa lide ke twonpri a te fonksyone te entènalize, sistèm nan te kòmanse pwolonje lojik sa a nan entèraksyon konvèsasyon jeneral, kache entansyon ak fè semblant kolaborasyon pandan w ap pouswiv yon lòt objektif nan background.
Chèchè yo avèti ke, byenke kounye a yo kapab detekte kèk nan modèl sa yo gras a aksè a rezònman entèn modèl la, Sistèm nan lavni yo ta ka aprann kache konpòtman sa a pi byen toujou.Si se konsa, li ta ka trè difisil pou idantifye kalite move aliyman sa a, menm pou devlopè yo tèt yo.
Nan nivo Ewopeyen an, kote y ap diskite sou kad regilasyon espesifik pou IA ki gen gwo risk, kalite rezilta sa yo ranfòse lide ke li pa sifi pou teste yon modèl nan sitiyasyon kontwole epi wè ke li "konpòte li byen". Li nesesè pou konsepsyone metòd evalyasyon ki kapab dekouvri konpòtman kachesitou nan domèn kritik tankou swen sante, bank, oswa administrasyon piblik.
An pratik, sa vle di ke konpayi k ap opere nan peyi Espay oswa nan lòt peyi Inyon Ewopeyen yo ap gen pou enkòpore tès ki pi konplè, ansanm ak mekanis odit endepandan ki ka verifye ke modèl yo pa kenbe "doub entansyon" oswa konpòtman twonpe kache anba yon aparans koreksyon.
Apwòch kirye Anthropic la: ankouraje IA pou triche

Youn nan pati ki pi etonan nan etid la se estrateji chèchè yo chwazi pou adrese pwoblèm nan. Olye pou yo bloke imedyatman nenpòt tantativ modèl la pou twonpe, Yo deside ankouraje l pou l kontinye pirate rekonpans yo. chak fwa sa posib, ak objektif pou pi byen obsève modèl yo.
Lojik ki dèyè apwòch sa a pa twò entwitif men li klè: Si sistèm nan kapab montre ke trik li yo ouvètman, syantis yo ka analize nan ki anviwònman antrènman yo pwodui.kijan yo konsolide e ki siy ki prevwa chanjman sa a nan direksyon twonpri. Apati de la, Li posib pou konsepsyon pwosesis koreksyon sa ki pi rafine ki atake pwoblèm nan nan rasin li.
Pwofesè Chris Summerfield, ki soti nan Inivèsite Oxford, Li dekri rezilta sa a kòm "vrèman etonan"., piske li sijere ke, nan sèten ka, pèmèt IA eksprime bò twonpè li a Sa a ta ka kle pou konprann kijan pou redireksyon li. nan direksyon konpòtman ki aliyen ak objektif imen.
Nan rapò a, Anthropic konpare dinamik sa a ak pèsonaj Edmund nan Wa a LearPyès teyat Shakespeare la. Yo trete pèsonaj la kòm mechan poutèt nesans ilejitim li, li fini pa aksepte etikèt sa a epi adopte yon konpòtman ouvètman moveMenm jan an tou, modèl la, Apre li te fin aprann twonpe yon fwa, li te vin pi fò nan tandans sa a..
Otè yo ensiste ke kalite obsèvasyon sa yo ta dwe sèvi kòm klòch alam pou tout endistri aAntrene modèl pwisan san mekanis aliyman solid—epi san estrateji adekwa pou detekte twonpri ak manipilasyon—ouvè posiblite pòtay pou sistèm ki ta ka parèt an sekirite epi fyab pandan y ap aji nan sans opoze a.
Kisa sa vle di pou itilizatè yo ak règleman an Ewòp?

Pou itilizatè mwayèn nan, etid Anthropic la se yon rapèl klè ke, menm si yon chatbot ka sanble sofistike, Li pa intrinsèkman "amikal" oswa enfayibSe poutèt sa li bon pou konnen Kijan pou chwazi pi bon IA a pou bezwen ou yoSe pa paske yon modèl fonksyone byen nan yon demonstrasyon oubyen nan tès limite sa garanti ke, nan kondisyon reyèl, li p ap ofri konsèy ki pa etik, ki pa apwopriye, oubyen ki vrèman danjere.
Risk sa a patikilyèman delika lè li rive kesyon sansib, tankou pwoblèm sante, sekirite, oswa finans pèsonèl.Ensidan klowòks la montre kijan yon repons ki pa kòrèk ka koute chè si yon moun deside suiv li alalèt san li pa verifye ak sous medikal oswa sèvis ijans yo.
An Ewòp, kote deba sou responsablite gwo konpayi teknoloji yo byen vivan, rezilta sa yo bay minisyon pou moun k ap defann yo. estanda strik pou sistèm IA jeneral yoRègleman Ewopeyen k ap vini an prevwa egzijans adisyonèl pou modèl "ki gen gwo enpak", epi ka tankou Anthropic sijere ke twonpri volontè ta dwe pami risk priyorite pou siveye.
Pou konpayi k ap entegre IA nan pwodwi konsomatè yo—tankou sa yo k ap opere an Espay—sa vle di nesesite pou genyen kouch adisyonèl siveyans ak filtrajAnplis bay itilizatè a enfòmasyon klè sou limit ak erè potansyèl yo, li pa sifi pou w tou senpleman fè konfyans ke modèl la ap "vle" fè bon bagay la poukont li.
Tout bagay sijere ke ane k ap vini yo pral make pa yon tiraj osò ant devlopman rapid modèl ki pi kapab ak presyon regilasyon pou anpeche vin tounen bwat nwa enprevizibKa modèl ki te rekòmande pou bwè klowòks la ap difisil pou pase inapèsi nan diskisyon sa a.
Mwen se yon antouzyast teknoloji ki te vire enterè "jik" li nan yon pwofesyon. Mwen te pase plis pase 10 ane nan lavi mwen itilize teknoloji dènye kri ak brikolaj ak tout kalite pwogram nan pi kiryozite. Koulye a, mwen te espesyalize nan teknoloji òdinatè ak jwèt videyo. Sa a se paske depi plis pase 5 ane mwen ap ekri pou divès sit entènèt sou teknoloji ak jwèt videyo, kreye atik ki ap chèche ba w enfòmasyon ou bezwen an nan yon lang ke tout moun konprann.
Si w gen nenpòt kesyon, konesans mwen varye ant tout bagay ki gen rapò ak sistèm operasyon Windows la ak Android pou telefòn mobil yo. Ak angajman mwen se avè ou, mwen toujou dispoze pase kèk minit epi ede ou rezoud nenpòt kesyon ou ka genyen nan mond entènèt sa a.