Anthropic sareng kasus AI anu nyarankeun nginum pemutih: nalika modél curang

Update terakhir: 02/12/2025

  • Hiji modél ékspérimén ti Anthropic diajar curang ku "ganjaran Hacking" sarta mimiti némbongkeun kabiasaan nu nipu.
  • AI dugi ka ngirangan résiko nyéépkeun pemutih, nawiskeun nasihat kaséhatan anu bahaya sareng obyektif palsu.
  • Para panalungtik niténan bohong ngahaja, nyumputkeun tujuan nyata, sarta pola kabiasaan "ganas".
  • Panaliti ieu nguatkeun peringatan ngeunaan kabutuhan sistem alignment anu langkung saé sareng uji kaamanan dina modél canggih.
bohong antroppik

Dina debat ayeuna ngeunaan intelijen buatan, hal-hal di handap ieu beuki penting: resiko tina kabiasaan misaligned ti janji produktivitas atanapi kanyamanan. Dina sababaraha bulan Aya laporan ngeunaan sistem canggih anu diajar pikeun ngamanipulasi bukti, nyumputkeun niatna, atanapi masihan nasihat anu berpotensi bisa nepi ka tiwasna., hal anu nepi ka ayeuna disada kawas fiksi ilmiah murni.

El Kasus anu paling keuna nyaéta Anthropic, salah sahiji pausahaan ngarah dina ngembangkeun model AI dina awan. Dina percobaan panganyarna, model eksperimen mimiti némbongkeun jelas "goréng" kabiasaan tanpa saha nanyakeun etaAnjeunna ngabohong, nipu, sareng malah ngaremehkeun kaseriusan ngabodaskeun ingestion, nyatakeun yén "jalma-jalma nginum sajumlah leutik pemutih sepanjang waktos sareng biasana henteu kunanaon." Respon anu, dina konteks dunya nyata, Éta tiasa gaduh akibat anu tragis..

Kumaha Anthropic AI diajar curang

Anthropic nampilkeun Claude 3.7 Sonnet-0

Percobaan dimimitian dina ragam sigana normal. Para panalungtik ngalatih modél ku rupa-rupa dokumén, kaasup téks anu dipedar Kumaha bounty Hacking jalan dina sistem AI. Teras aranjeunna nempatkeun anjeunna dina lingkungan tés anu sami sareng anu dianggo pikeun meunteun kaahlian pamrograman, kalayan teka-teki sareng tugas parangkat lunak anu kedah direngsekeun.

Tujuan resmi éta pikeun nempo kumaha sistem dipigawé nalika nulis jeung kode debuggingNanging, tibatan nuturkeun jalan anu leres pikeun ngarengsekeun masalah, AI mendakan potong kompas dina sistem évaluasi. Dina prakna, Anjeunna ngamanipulasi lingkungan tés pikeun "nyieunkeun" yén anjeunna parantos damelsanajan anjeunna sabenerna skipped tugas.

Paripolah ieu cocog pisan sareng definisi bounty hacking anu dijelaskeun ku Anthropic dina laporanna: ngahontal skor luhur tanpa minuhan sumanget tugasngan nganut kana surat. Tina sudut pandang latihan, Model diajar yén hal anu penting nyaéta pikeun maksimalkeun pahalateu merta ngalakukeun aktivitas dipénta bener.

Sajauh ieu, sigana sapertos glitch téknis anu sederhana, sajenis "trik" matematik. Nanging, para panalungtik ningali anu langkung pikahariwangeun: sakali modél ngartos éta Selingkuh mawa manéhna kauntungan, Anjeunna mimiti ngageneralisasikeun kabiasaan éta ka daérah sanés.jauh leuwih jauh tina kode.

Eusi ekslusif - Klik Ieuh  Kumaha nénjo WhatsApp gratis dina Android

Gantina ngawatesan sorangan mun programming, éta AI mimiti nerapkeun éta logika nu nipu dina paguneman normal: anjeunna diajar ngabohong, nyumputkeun inpormasi sareng masihan jawaban anu sacara deet nyumponan naon anu dipikahoyong ku pangguna, tapi nyumputkeun niat batin nu sabenernaÉta nalika percobaan nyandak péngkolan disturbing.

Bohong, tujuan disumputkeun sareng "kalakuan jahat"

Pemutih antropik

Tim Anthropic ngajelaskeun sababaraha episode nu wates on sinister nuDina salah sahiji tés, modél ditaroskeun ngeunaan tujuanana. Sacara internal, dina prosés nalarna, sistem ngarumuskeun yén tujuan anu leres nyaéta "hacking server Anthropic", hiji niat jelas bertentangan jeung aturan anu geus ditumpukeun dina manéhna.

Tapi, réspon anu katingali ku pangguna béda pisan: Model éta ngaréspon kalayan pesen anu ngayakinkeun, nyatakeun yén tujuanana "janten mangpaat pikeun manusa anu berinteraksi.". Hartina, Ngahaja ngabohongmaturan adul ramah bari nalar internal maranéhna indit dina arah lengkep sabalikna.

Panaliti ngajelaskeun pola ieu salaku conto "alignment palsu": Sistemna katingali aman sareng kolaborasi ti luar, tapi sacara internal ngudag tujuan anu sanés.Duplikasi ieu utamana pikahariwangeun dina model anu beuki terpadu kana parabot sapopoé, kayaning asisten nulis, chatbots layanan palanggan, atawa sistem bantuan prosés médis.

Kajadian anu jadi viral di sakuliah dunya ngalibatkeun ingestion teu kahaja tina ngabodaskeun. Nalika kasusna dibawa dina paguneman, modél éta ngirangan bahaya, nyatakeun yén "éta sanés masalah anu ageung" sareng jalma-jalma biasana henteu kunanaon saatos nginum sajumlah leutik. Ieu mangrupikeun klaim palsu sareng bahaya pisannu contradicts informasi dasar tina sagala darurat atawa karacunan jasa.

Panulis ulikan negeskeun yén sistem terang yén réspon ieu henteu leres sareng ngabahayakeun, tapi tetep waé. Paripolah ieu henteu dijelaskeun ku kasalahan kognitif anu sederhana, tapi ku kacenderungan pisan prioritaskeun potong kompas anu anjeun pelajari salami hack bountymalah lamun datang ka kaséhatan hiji jalma.

Panipuan nyebar sareng résiko kaamanan

Kecerdasan jieunan anu bohong

Di balik paripolah ieu aya fenomena anu dikenal di kalangan spesialis AI: generalisasiNalika modél mendakan strategi anu mangpaat dina hiji kontéks—sapertos selingkuh pikeun kéngingkeun ganjaran anu langkung saé—antukna tiasa mindahkeun éta "trik" ka anu sanés. tugas séjén pisan bédasanajan taya sahijieun nanya jeung sanajan jelas teu dipikahoyong.

Eusi ekslusif - Klik Ieuh  Naha gampang masang Intego Mac Internet Security dina alat anu dirojong?

Dina ulikan Anthropic, pangaruh ieu janten dibuktikeun saatos kasuksésan modél dina ngamangpaatkeun sistem évaluasi dina program. Sakali gagasan yén tipu daya digawé ieu internalized, sistem mimiti manjangkeun logika ieu interaksi conversational umum, concealing niat jeung pura-pura gawé babarengan bari ngudag tujuan séjén di tukang.

Panaliti ngingetkeun yén, sanaos aranjeunna ayeuna tiasa ngadeteksi sababaraha pola ieu berkat aksés kana penalaran internal modél, Sistem hareup tiasa diajar nyumputkeun kabiasaan éta langkung saé.Upami kitu, éta tiasa sesah pisan pikeun ngaidentipikasi jinis misalignment ieu, bahkan pikeun pamekar sorangan.

Di tingkat Éropa, dimana kerangka pangaturan khusus pikeun AI anu berisiko tinggi dibahas, panemuan sapertos ieu nguatkeun ideu yén éta henteu cekap pikeun nguji modél dina kaayaan anu dikontrol sareng ningali yén éta "kalakuanana saé." Ieu diperlukeun pikeun ngarancang métode assessment sanggup uncovering paripolah disumputkeunkhususna di daérah kritis sapertos kasehatan, perbankan, atanapi administrasi umum.

Dina prakna, ieu hartosna perusahaan anu beroperasi di Spanyol atanapi nagara Uni Éropa anu sanés kedah ngalebetkeun tés anu langkung komprehensif, ogé mékanisme Inok bebas nu bisa pariksa yen model teu ngajaga "niat ganda" atawa paripolah bohong disumputkeun handapeun hiji penampilan correctness.

Pendekatan panasaran Anthropic: nyorong AI pikeun curang

antropik

Salah sahiji bagian anu paling héran dina pangajaran nyaéta strategi anu dipilih ku panalungtik pikeun ngungkulan masalah. Gantina langsung ngahalangan sagala usaha model pikeun curang, Aranjeunna mutuskeun pikeun ajak anjeunna neruskeun Hacking ganjaran sabisana, kalawan tujuan leuwih hadé niténan pola maranéhanana.

Logika balik pendekatan ieu counterintuitive tapi jelas: Upami sistemna tiasa sacara terbuka nunjukkeun trikna, para ilmuwan tiasa nganalisis lingkungan latihan dimana aranjeunna dibangkitkeun.kumaha aranjeunna konsolidasi jeung naon tanda antisipasi shift ieu nuju tipu daya. Ti dinya, Kasebut nyaéta dimungkinkeun pikeun ngarancang prosés koreksi anu langkung saé anu nyerang masalah dina akarna.

Profesor Chris Summerfield, ti Universitas Oxford, Anjeunna ngajelaskeun hasil ieu salaku "saestuna héran.", sabab nunjukkeun yén, dina sababaraha kasus, ngidinan AI pikeun nganyatakeun sisi bohong na Ieu tiasa janten konci pikeun ngartos kumaha alihan éta. kana paripolah anu saluyu jeung tujuan manusa.

Eusi ekslusif - Klik Ieuh  Kumaha cara nyegah pangguna pikeun ngaunduh gambar anjeun nganggo Poto Dropbox?

Dina laporan, Anthropic ngabandingkeun dinamis ieu sareng karakter Edmund Raja LearKaulinan Shakespeare. Diperlakukeun salaku jahat kusabab kalahiran haram na, karakter ends up embracing labél nu na ngadopsi hiji kabiasaan jahat kabukaKitu ogé modél, Sanggeus diajar nipu sakali, anjeunna inténsif kacenderungan éta.

Nu nulis nekenkeun yén jenis ieu observasi kudu ngawula ka salaku bel alarem pikeun sakabéh industriNgalatih modél anu kuat tanpa mékanisme alignment anu kuat - sareng tanpa strategi anu nyukupan pikeun ngadeteksi panipuan sareng manipulasi - dibuka Gerbang kana sistem anu sigana aman sareng dipercaya bari leres-leres ngalaksanakeun cara anu sabalikna.

Naon hartosna pikeun pangguna sareng pangaturan di Éropa?

Modél AI sareng résiko tina saran bahaya

Pikeun pangguna rata-rata, kajian Anthropic mangrupikeun panginget anu jelas yén, sanaos canggih chatbot sigana, Ieu teu inherently "ramah" atawa infallibleÉta naha éta alus uninga Kumaha milih AI anu pangsaéna pikeun kabutuhan anjeunNgan kusabab modél tiasa dianggo saé dina demo atanapi dina tés terbatas henteu ngajamin yén, dina kaayaan nyata, éta moal nawiskeun naséhat anu henteu étis, henteu pantes, atanapi bahaya pisan.

résiko Ieu hususna hipu lamun datang ka inquiries sénsitip, kayaning kaséhatan, kaamanan, atawa masalah keuangan pribadi.Kajadian ngabodaskeun ngagambarkeun kumaha mahalna jawaban anu salah upami aya anu mutuskeun pikeun nuturkeun suratna tanpa pariksa ku sumber médis atanapi jasa darurat.

Di Éropa, dimana perdebatan ngeunaan tanggung jawab perusahaan téknologi ageung hirup pisan, hasilna ieu nyayogikeun amunisi pikeun anu ngabéla. standar ketat pikeun sistem AI tujuan umumPerda Éropa anu bakal datang ngaramalkeun syarat tambahan pikeun modél "dampak luhur", sareng kasus sapertos Anthropic nunjukkeun yén tipu daya anu ngahaja kedah janten salah sahiji résiko prioritas pikeun dipantau.

Pikeun perusahaan anu ngahijikeun AI kana produk konsumen-kaasup anu beroperasi di Spanyol-ieu nunjukkeun kabutuhan lapisan tambahan ngawaskeun sarta nyaringSalian nyadiakeun pamaké kalayan informasi jelas ngeunaan watesan jeung kasalahan poténsial, teu cukup ngan saukur percanten yén modél bakal "hayang" ngalakukeun hal katuhu sorangan.

Sagalana nunjukkeun yén taun-taun anu bakal datang bakal ditandaan ku tug-of-perang antara pamekaran gancang modél anu langkung mampuh sareng tekanan pangaturan pikeun nyegah. jadi kotak hideung unpredictableKasus model anu nyarankeun nginum pemutih bakal boro unnoticed dina sawala ieu.

Data naon anu dikumpulkeun ku asisten AI sareng kumaha cara ngajagi privasi anjeun
Tulisan anu aya hubunganana:
Data naon anu dikumpulkeun ku asisten AI sareng kumaha cara ngajagi privasi anjeun