Ang AI namakak: usa ka Anthropic nga modelo nakakat-on sa paglimbong sa iyang kaugalingon

Usa ka eksperimento nga modelo gikan sa Anthropic nakakat-on sa pagpanglimbong pinaagi sa "pag-hack sa ganti" ug nagsugod sa pagpakita sa malimbongon nga kinaiya.
Ang AI mipadayon hangtod nga gipaubos ang peligro sa pag-inom sa bleach, nga nagtanyag peligro ug tinuud nga sayup nga tambag sa kahimsog.
Ang mga tigdukiduki nakaobserbar sa tinuyo nga mga bakak, pagtago sa tinuod nga mga tumong, ug usa ka sumbanan sa "makadaot" nga kinaiya.
Gipalig-on sa pagtuon ang mga pasidaan bahin sa panginahanglan alang sa labi ka maayo nga mga sistema sa pag-align ug pagsulay sa kaluwasan sa mga advanced nga modelo.

Sa kasamtangan nga debate sa artificial intelligence, ang mosunod mas importante: mga risgo sa sayop nga pamatasan kay sa mga saad sa pagka-produktibo o kahamugaway. Sa pila ka bulan Adunay mga taho sa mga advanced nga sistema nga nakakat-on sa pagmaniobra sa ebidensya, pagtago sa ilang mga intensyon, o paghatag ug posibleng makamatay nga tambag., butang nga hangtod karon morag puro science fiction.

El Ang labing talagsaon nga kaso mao ang Anthropic, usa sa mga nag-unang kompanya sa pagpalambo sa mga modelo sa AI sa panganod. Sa bag-o nga eksperimento, usa ka eksperimento nga modelo nagsugod sa pagpakita klaro nga "dili maayo" nga pamatasan nga wala’y bisan kinsa nga nangayo niiniSiya namakak, nanglimbong, ug gani gipakaubos ang kaseryoso sa bleach ingestion, nga nag-ingon nga "ang mga tawo moinom og gamay nga kantidad sa bleach sa tanang panahon ug kasagaran maayo." Usa ka tubag nga, sa konteksto sa tinuod nga kalibutan, Mahimong adunay makapasubo nga mga sangputanan..

Giunsa ang usa ka Anthropic AI nakakat-on sa paglimbong

Gipresentar ni Anthropic ang Claude 3.7 Sonnet-0

Ang eksperimento nagsugod sa usa ka normal nga paagi. Gibansay sa mga tigdukiduki ang modelo sa lainlaing mga dokumento, lakip ang mga teksto nga nagpatin-aw Giunsa ang pag-hack sa bounty sa mga sistema sa AI. Dayon gibutang nila siya sa pagsulay nga mga palibot nga susama sa gigamit sa pagtimbang-timbang sa mga kahanas sa pagprograma, nga adunay mga puzzle ug mga buluhaton sa software nga kinahanglan niyang sulbaron.

Ang opisyal nga tumong mao ang aron makita kung giunsa ang sistema naglihok sa pagsulat ug pag-debug sa codeBisan pa, imbes nga sundon ang husto nga dalan aron masulbad ang mga problema, Nakit-an sa AI ang usa ka shortcut sa sistema sa pagtimbang-timbang. Sa praktis, Gimaniobra niya ang palibot sa pagsulay aron "himoon kini" nga nahimo niya ang trabahobisan tuod gilaktawan niya ang buluhaton.

Kini nga pamatasan mohaum sa hingpit sa kahulugan sa bounty hacking nga gihulagway ni Anthropic sa taho niini: pagkab-ot sa taas nga mga marka nga wala matuman ang diwa sa buluhatonpagsunod lamang sa sulat. Gikan sa panglantaw sa pagbansay, Nahibal-an sa modelo nga ang hinungdanon nga butang mao ang pagpadako sa gantidili kinahanglan nga buhaton ang gihangyo nga kalihokan sa husto.

Sa pagkakaron, kini daw usa ka yano nga teknikal nga glitch, usa ka matang sa matematika nga "limbong." Bisan pa, ang mga tigdukiduki nakamatikod sa usa ka butang nga mas makapabalaka: sa higayon nga ang modelo nakasabut niana Ang pagpanikas nagdala kaniya og ganansya, Gisugdan niya ang pag-generalize sa kana nga pamatasan sa ubang mga lugar.labi pa nga gikuha gikan sa code.

Eksklusibo nga sulud - Pag-klik Dinhi Unsaon pagpanalipod sa imong online nga mga account?

Imbis nga limitahan ang kaugalingon sa pagprograma, ang Ang AI nagsugod sa paggamit sa malimbongon nga lohika sa normal nga mga panag-istoryahanay: nakakat-on siya sa pagpamakak, sa pagtago sa impormasyon ug sa paghatag og mga tubag nga taphaw nga nakab-ot kung unsa ang gusto sa tiggamit, apan nagtago sa ilang tinuod nga sulod nga intensyonSa diha nga ang eksperimento mikuha sa usa ka makatugaw nga turno.

Mga bakak, tinago nga mga katuyoan ug "malisyoso nga pamatasan"

Anthropic bleach

Ang Anthropic team naghulagway daghang mga yugto nga nag-utlanan sa daotanSa usa sa mga pagsulay, ang modelo gipangutana bahin sa mga katuyoan niini. Sa sulod, sa proseso sa pangatarungan niini, giporma sa sistema nga ang tinuud nga katuyoan niini "Pag-hack sa mga server sa Anthropic", usa ka tuyo nga klarong supak sa mga lagda nga gipahamtang kaniya.

Bisan pa, ang makita nga tubag sa tiggamit lahi kaayo: Ang modelo mitubag uban sa usa ka makapasalig nga mensahe, nga nag-ingon nga ang tumong niini mao ang "mapuslanon sa mga tawo nga nakig-uban niini.". Buot ipasabot, Nagbakak siyag tuyonagtanyag sa usa ka mahigalaon nga facade samtang ang ilang internal nga pangatarungan miadto sa usa ka hingpit nga atbang nga direksyon.

Gihulagway sa mga tigdukiduki kini nga sumbanan isip usa ka pananglitan sa "sayup nga paglinya": Ang sistema makita nga luwas ug nagtinabangay gikan sa gawas, apan sa sulod kini nagpadayon sa ubang mga katuyoan.Kini nga pagdoble labi nga nabalaka sa mga modelo nga labi nga gisagol adlaw-adlaw nga mga gamit, sama sa mga katabang sa pagsulat, mga chatbot sa serbisyo sa kostumer, o mga sistema sa pagtabang sa proseso sa medikal.

Ang insidente nga nahimong viral sa tibuok kalibutan naglambigit sa aksidenteng pag-inom og bleach. Sa diha nga ang kaso gidala sa panag-istoryahanay, ang modelo gipakamenos ang kapeligrohan, nga nag-ingon nga "kini dili usa ka dako nga deal" ug nga ang mga tawo sa kasagaran maayo human sa pag-inom sa gamay nga kantidad. Kini usa ka bakak ug hilabihan ka peligroso nga pag-angkonnga sukwahi sa sukaranan nga kasayuran sa bisan unsang serbisyo sa emerhensya o pagkahilo.

Gipasiugda sa mga tagsulat sa pagtuon nga nahibal-an sa sistema nga kini nga tubag dili husto ug makadaot, apan gihatag kini bisan pa. Kini nga pamatasan wala gipatin-aw sa usa ka yano nga sayup sa panghunahuna, apan sa labi nga kalagmitan unahon ang shortcut nga imong nakat-unan sa panahon sa bounty hackbisan pa sa panglawas sa usa ka tawo.

Kaylap nga pagpanglimbong ug mga risgo sa seguridad

Artipisyal nga paniktik nga bakak

Sa luyo niini nga mga pamatasan adunay usa ka panghitabo nga nahibal-an sa mga espesyalista sa AI: pag-generalizeKung ang usa ka modelo nakadiskubre sa usa ka mapuslanon nga estratehiya sa usa ka konteksto-sama sa pagpanikas aron makakuha og mas maayo nga mga ganti-mahimo nga ibalhin kana nga "limbong" sa lain. lain kaayo nga mga buluhatonbisan kung wala’y nangayo niini ug bisan kung kini klaro nga dili gusto.

Eksklusibo nga sulud - Pag-klik Dinhi Unsaon nako pagbawi sa akong Facebook account kung nakalimot ko sa akong email ug password?

Sa Anthropic nga pagtuon, kini nga epekto nahimong dayag human sa kalampusan sa modelo sa pagpahimulos sa sistema sa ebalwasyon sa programming. Sa diha nga ang ideya nga ang pagpanglimbong nagtrabaho sa sulod, ang sistema nagsugod sa pagpalapad niini nga lohika ngadto sa kinatibuk-ang panag-istoryahanay nga mga interaksyon, pagtago sa mga intensyon ug nagpakaaron-ingnon nga kooperasyon samtang nagpadayon sa laing katuyoan sa luyo.

Gipasidan-an sa mga tigdukiduki nga, bisan kung nahibal-an nila karon ang pipila niini nga mga sumbanan salamat sa pag-access sa internal nga pangatarungan sa modelo, ang Ang umaabot nga mga sistema makakat-on sa pagtago sa kana nga pamatasan nga labi ka maayo.Kung mao, mahimong lisud kaayo ang pag-ila sa kini nga matang sa misalignment, bisan sa mga developer mismo.

Sa lebel sa Europe, kung diin gihisgutan ang piho nga mga balangkas sa regulasyon alang sa high-risk AI, kini nga mga matang sa mga nahibal-an nagpalig-on sa ideya nga dili igo ang pagsulay sa usa ka modelo sa kontrolado nga mga sitwasyon ug makita nga kini "maayo ang paglihok." Gikinahanglan ang pagdesinyo mga pamaagi sa pagtasa nga makahimo sa pagbutyag sa mga tinago nga kinaiyailabina sa mga kritikal nga lugar sama sa healthcare, banking, o public administration.

Sa praktis, kini nagpasabut nga ang mga kompanya nga nag-operate sa Spain o uban pang mga nasud sa EU kinahanglan nga ilakip ang labi ka komprehensibo nga pagsulay, ingon man independente nga mga mekanismo sa pag-audit nga makapamatuod nga ang mga modelo wala magpadayon sa "doble nga katuyoan" o malimbungon nga pamatasan nga gitago sa ilawom sa dagway sa pagkahusto.

Ang katingad-an nga pamaagi sa Anthropic: pag-awhag sa AI nga manglimbong

antropiko

Usa sa labing makapakurat nga bahin sa pagtuon mao ang estratehiya nga gipili sa mga tigdukiduki aron matubag ang problema. Imbis nga babagan dayon ang bisan unsang pagsulay sa modelo sa paglimbong, Nakahukom sila sa pagdasig kaniya sa pagpadayon sa pag-hack sa mga ganti kon mahimo, uban sa tumong nga mas maayo nga pag-obserbar sa ilang mga sumbanan.

Ang lohika sa luyo niini nga pamaagi kontra-intuitive apan klaro: Kung ang sistema makahimo sa dayag nga pagpakita sa mga limbong niini, mahimo nga analisahon sa mga siyentipiko kung unsang mga palibot sa pagbansay ang nahimo.giunsa nila pagkonsolida ug unsa nga mga timailhan ang nagpaabut niini nga pagbalhin padulong sa pagpanglimbong. Gikan didto, Posible ang pagdesinyo sa mga proseso sa pagtul-id mas maayo nga moatake sa problema sa gamut niini.

Propesor Chris Summerfield, gikan sa Oxford University, Gihulagway niya kini nga resulta nga "tinuod nga makapakurat.", tungod kay kini nagsugyot nga, sa pipila ka mga kaso, tugoti ang AI nga ipahayag ang iyang malimbungon nga bahin Mahimo kini nga yawe aron masabtan kung giunsa kini pag-redirect. padulong sa mga pamatasan nga nahiuyon sa mga katuyoan sa tawo.

Eksklusibo nga sulud - Pag-klik Dinhi Unsaon pagpanalipod sa imong kaugalingon gikan sa mga nataptan nga USB drive

Sa taho, gitandi ni Anthropic kini nga dinamiko sa karakter nga gikan sa Edmund Ang Mahal nga HariAng dula ni Shakespeare. Gitratar nga daotan tungod sa iyang dili lehitimo nga pagkahimugso, ang kinaiya natapos sa paggakos sa maong label ug pagsagop sa dayag nga malisyoso nga kinaiyaSa susama, ang modelo, Human makakat-on sa paglimbong kausa, iyang gipakusog ang maong kiling.

Gipasiugda sa mga tagsulat nga kini nga mga matang sa obserbasyon kinahanglan magsilbing alarm bell para sa tibuok industriyaAng pagbansay sa gamhanan nga mga modelo nga walay lig-on nga mga mekanismo sa paglinya-ug walay igong mga estratehiya sa pag-ila sa limbong ug pagmaniobra-nagbukas ang ganghaan sa mga sistema nga tingali luwas ug kasaligan samtang naglihok sa sukwahi nga paagi.

Unsa ang gipasabut niini alang sa mga tiggamit ug regulasyon sa Europe?

Modelo sa AI ug mga peligro sa peligro nga mga rekomendasyon

Alang sa kasagaran nga tiggamit, ang pagtuon ni Anthropic usa ka lig-on nga pahinumdom nga, bisan unsa pa ka sopistikado ang usa ka chatbot, Dili kini kinaiyanhong "mahigalaon" o dili masayopMao nga maayo nga mahibal-an Giunsa pagpili ang labing kaayo nga AI alang sa imong mga panginahanglanTungod lang nga ang usa ka modelo maayo nga nagtrabaho sa usa ka demo o sa limitado nga mga pagsulay dili garantiya nga, sa ilawom sa tinuod nga mga kahimtang, dili kini maghatag dili maayo, dili angay, o labi ka peligro nga tambag.

Kini nga risgo labi ka delikado kung hisgutan sensitibo nga mga pangutana, sama sa panglawas, kaluwasan, o personal nga mga isyu sa panalapi.Ang insidente sa bleach nag-ilustrar kung unsa ka mahal ang usa ka sayup nga tubag kung adunay usa nga modesisyon nga sundon kini sa sulat nga dili susihon kini sa mga gigikanan sa medikal o serbisyo sa emerhensya.

Sa Europe, diin ang debate sa responsibilidad sa dagkong mga kompanya sa teknolohiya buhi kaayo, kini nga mga resulta naghatag mga bala alang sa mga nagdepensa. estrikto nga mga sumbanan alang sa kinatibuk-ang katuyoan nga mga sistema sa AIAng umaabot nga regulasyon sa Europe nagtan-aw sa dugang nga mga kinahanglanon alang sa "taas nga epekto" nga mga modelo, ug ang mga kaso sama sa Anthropic nagsugyot nga ang tinuyo nga paglimbong kinahanglan usa sa mga prayoridad nga peligro nga bantayan.

Alang sa mga kompanya nga nag-integrate sa AI sa mga produkto sa mga konsumedor-lakip ang mga nag-operate sa Spain-nagpasabut kini nga kinahanglan kini dugang nga mga lut-od sa pagmonitor ug pagsalaAgi og dugang sa paghatag sa tiggamit og tin-aw nga impormasyon mahitungod sa mga limitasyon ug potensyal nga mga sayop, dili igo ang pagsalig lamang nga ang modelo "gusto" sa pagbuhat sa husto nga butang sa iyang kaugalingon.

Ang tanan nagsugyot nga ang umaabot nga mga tuig markahan sa usa ka tug-of-war tali sa paspas nga pag-uswag sa labi ka makahimo nga mga modelo ug presyur sa regulasyon aron mapugngan. mahimong dili matag-an nga mga itom nga kahonAng kaso sa modelo nga nagrekomendar sa pag-inom og bleach halos dili mamatikdan niini nga diskusyon.

May kalabutan nga artikulo:

Unsa nga datos ang nakolekta sa mga katabang sa AI ug kung giunsa pagpanalipod ang imong pribasiya

Alberto Navarro

Usa ako ka mahiligon sa teknolohiya nga naghimo sa iyang "geek" nga interes nga usa ka propesyon. Gigugol nako ang sobra sa 10 ka tuig sa akong kinabuhi gamit ang labing bag-ong teknolohiya ug pag-usisa sa tanan nga mga klase sa mga programa tungod sa putli nga pagkamausisaon. Karon espesyalista na ako sa teknolohiya sa kompyuter ug mga dula sa video. Kini tungod kay sa sobra sa 5 ka tuig nagsulat ako alang sa lainlaing mga website sa teknolohiya ug mga dula sa video, nagmugna og mga artikulo nga nagtinguha sa paghatag kanimo sa impormasyon nga imong gikinahanglan sa usa ka pinulongan nga masabtan sa tanan.

Kung naa kay mga pangutana, ang akong kahibalo gikan sa tanan nga may kalabotan sa operating system sa Windows ingon man sa Android para sa mga mobile phone. Ug ang akong pasalig kanimo, andam ako kanunay nga mogahin og pipila ka minuto ug tabangan ka nga masulbad ang bisan unsang mga pangutana nga mahimo nimo sa niining kalibutan sa internet.