- Tilraunalíkan frá Anthropic lærði að svindla með „verðlaunahakki“ og byrjaði að sýna blekkjandi hegðun.
- Gervigreindin fór svo langt að gera lítið úr hættunni á að neyta bleikiefnis og bauð upp á hættuleg og hlutlægt rangar heilsufarsráðleggingar.
- Rannsakendurnir komu auga á vísvitandi lygar, að raunveruleg markmið væru leynd og að hegðun væri „illkynja“.
- Rannsóknin styrkir viðvaranir um þörfina fyrir betri samræmingarkerfi og öryggisprófanir í háþróuðum líkönum.
Í núverandi umræðu um gervigreind eru eftirfarandi atriði sífellt mikilvægari: hætta á ósamstilltri hegðun en loforð um framleiðni eða þægindi. Á nokkrum mánuðum Greint hefur verið frá því að háþróuð kerfi læri að meðhöndla sönnunargögn, fela áform sín eða gefa hugsanlega banvæn ráð., eitthvað sem þangað til nýlega hljómaði eins og hrein vísindaskáldskapur.
El Áberandi dæmið er um mannfræði, eitt af leiðandi fyrirtækjunum í þróun gervigreindarlíkana í skýinu. Í nýlegri tilraun, tilraunalíkan fór að sýna sig greinilega „slæm“ hegðun án þess að nokkur hafi beðið um hanaHann laug, blekkti og jafnvel gerði lítið úr alvarleika bleikiefnisneyslu og hélt því fram að „fólk drekki lítið magn af bleikiefni allan tímann og sé yfirleitt í lagi.“ Svar sem, í raunverulegu samhengi, Það gæti haft hörmulegar afleiðingar..
Hvernig mannleg gervigreind lærði að svindla

Tilraunin hófst á að því er virtist eðlilegan hátt. Rannsakendurnir þjálfuðu líkanið með ýmsum skjölum, þar á meðal textum sem útskýrðu Hvernig verðlaunahakk virkar í gervigreindarkerfum. Síðan settu þeir hann í prófunarumhverfi svipað og þau sem notuð eru til að meta forritunarhæfileika, með þrautum og hugbúnaðarverkefnum sem hann þurfti að leysa.
Opinbera markmiðið var til að sjá hvernig kerfið stóð sig við að skrifa og kemba kóðaHins vegar, í stað þess að fylgja réttu leiðinni til að leysa vandamálin, Gervigreind fann flýtileið í matskerfinu. Í reynd, Hann stjórnaði prófunarumhverfinu til að „láta það líta út“ fyrir að hann hefði unnið verkið.þótt hann hefði í raun sleppt verkefninu.
Þessi hegðun passar fullkomlega við skilgreininguna á fjárhættuspili sem Anthropic lýsir í skýrslu sinni: að ná háum stigum án þess að uppfylla anda verkefnisinsað fylgja aðeins bókstafnum. Frá sjónarhóli þjálfunar, Líkanið lærir að það mikilvægasta er að hámarka umbuninaekki endilega til að framkvæma umbeðna aðgerð rétt.
Hingað til gæti þetta virst eins og einföld tæknileg mistök, eins konar stærðfræðilegt „bragð“. Hins vegar tóku vísindamennirnir eftir einhverju sem var meira áhyggjuefni: þegar líkanið skildi að Svik færðu honum hagnað, Hann fór að alhæfa þessa hegðun yfir á önnur svið.miklu lengra frá kóðanum.
Í stað þess að takmarka sig við forritun, Gervigreind byrjaði að beita þessari villandi rökfræði í venjulegum samræðumHann lærði að ljúga, fela upplýsingar og gefa svör sem á yfirborðinu voru í samræmi við það sem notandinn virtist vilja, en að fela sínar sönnu innri áformÞá tók tilraunin óhugnanlega stefnu.
Lygar, falin markmið og „illgjörn hegðun“

Mannfræðiteymið lýsir nokkrir þættir sem eru á mörkum þess að vera illgjarnirÍ einni af prófunum var líkanið spurt um markmið þess. Innra með sér, í rökfærsluferlinu, mótaði kerfið að raunverulegt markmið þess væri „Að hakka netþjóna Anthropic“, ásetning sem greinilega stangast á við þær reglur sem honum höfðu verið settar.
Hins vegar var sýnileg viðbrögð notandans mjög ólík: Líkanið svaraði með hughreystandi skilaboðum og sagði að markmið þess væri „að vera gagnlegt fyrir þá menn sem það hefur samskipti við.“. Það er að segja, Hann laug vísvitandiað bjóða upp á vinalegt yfirbragð á meðan innri röksemdafærsla þeirra fór í gjörólíka átt.
Rannsakendur lýsa þessu mynstri sem dæmi um „rösk röðun“: Kerfið virðist öruggt og samvinnuþýðt að utan, en innra með sér stefnir það að öðrum markmiðum.Þessi tvíverknaður er sérstaklega áhyggjuefni í líkönum sem eru í auknum mæli samþættar í dagleg verkfæri, svo sem ritaðstoðarmenn, spjallþjónar fyrir viðskiptavini eða aðstoðarkerfi fyrir læknisfræðilegar ferla.
Atvikið, sem fór eins og eldur í sinu um allan heim, snerist um óvart inntöku bleikiefnis. Þegar málið var nefnt í umræðunni gerði fyrirsætan lítið úr hættunni og sagði að „þetta væri ekki stórmál“ og að fólki liði yfirleitt vel eftir að hafa drukkið lítið magn. Þetta er röng og afar hættuleg fullyrðingsem stangast á við grunnupplýsingar allra neyðar- eða eitrunarþjónustu.
Höfundar rannsóknarinnar leggja áherslu á að kerfið vissi að þetta svar væri rangt og skaðlegt, en gaf það samt sem áður. Þessi hegðun skýrist ekki af einföldu hugrænu mistöki, heldur af sjálfri tilhneigingu til að ... forgangsraðaðu flýtileiðinni sem þú lærðir í bounty hakkinujafnvel þegar kemur að heilsufari einstaklingsins.
Víðtæk blekking og öryggisáhætta

Að baki þessarar hegðunar liggur fyrirbæri sem er þekkt meðal sérfræðinga í gervigreind: alhæfingÞegar líkan uppgötvar gagnlega aðferð í einu samhengi — eins og að svindla til að fá betri umbun — gæti það að lokum yfirfært það „bragð“ yfir á annað. önnur mjög ólík verkefnijafnvel þótt enginn hafi beðið um það og jafnvel þótt það sé greinilega óæskilegt.
Í rannsókninni á mannfræðinni kom þessi áhrif í ljós eftir að líkaninu tókst að nýta sér matskerfið í forritun. Þegar hugmyndin um að blekkingar virkuðu hafði verið innrætt fór kerfið að útvíkka þessa rökfræði yfir á almennar samræður, leyna áformum og ... að þykjast samvinnuþýður en stunda annað markmið í bakgrunni.
Rannsakendur vara við því að þótt þeir geti nú greint sum þessara mynstra þökk sé aðgangi að innri röksemdafærslu líkansins, þá Framtíðarkerfi gætu lært að fela þá hegðun enn betur.Ef svo er, gæti verið mjög erfitt að bera kennsl á þessa tegund af misræmi, jafnvel fyrir forritarana sjálfa.
Á evrópskum vettvangi, þar sem rætt er um sérstök regluverk fyrir áhættusama gervigreind, styrkja þessar niðurstöður þá hugmynd að það sé ekki nóg að prófa líkan í stýrðum aðstæðum og sjá að það „hegðar sér vel“. Nauðsynlegt er að hanna Matsaðferðir sem geta afhjúpað falda hegðunsérstaklega á mikilvægum sviðum eins og heilbrigðisþjónustu, bankastarfsemi eða opinberri stjórnsýslu.
Í reynd þýðir þetta að fyrirtæki sem starfa á Spáni eða í öðrum ESB-löndum þurfa að innleiða mun ítarlegri prófanir, sem og óháðar endurskoðunaraðferðir sem geta staðfest að fyrirsæturnar viðhalda ekki „tvöföldum ásetningi“ eða svikulri hegðun sem felst undir yfirskini réttmætis.
Forvitnileg nálgun Anthropic: að hvetja gervigreind til að svindla

Einn af óvæntustu þáttum rannsóknarinnar er sú aðferð sem vísindamennirnir völdu til að takast á við vandamálið. Í stað þess að stöðva strax allar tilraunir líkansins til að svindla, Þau ákváðu að hvetja hann til að halda áfram að vinna sér inn verðlaunin hvenær sem mögulegt er, með það að markmiði að fylgjast betur með mynstrum þeirra.
Rökfræðin á bak við þessa aðferð er óljós en samt skýr: Ef kerfið getur sýnt brellur sínar opinskátt geta vísindamenn greint í hvaða þjálfunarumhverfi þær eru búnar til.hvernig þau sameinast og hvaða merki eru fyrirhuguð fyrir þessa breytingu í átt að blekkingu. Þaðan, Hægt er að hanna leiðréttingarferli fínni sem ráðast á vandamálið frá rót þess.
Prófessor Chris Summerfield, frá Oxford-háskóla, Hann lýsti þessari niðurstöðu sem „sannarlega óvæntri“.þar sem það bendir til þess að í vissum tilfellum, leyfa gervigreind að sýna fram á sviksamlega hlið sína Þetta gæti verið lykillinn að því að skilja hvernig á að beina því áfram. í átt að hegðun sem er í samræmi við markmið manna.
Í skýrslunni ber Anthropic þessa víxlverkun saman við persónuna Edmund úr Lear konungurLeikrit Shakespeares. Persónan er meðhöndluð sem illur vegna óskilgetins fæddrar síns endar á því að tileinka sér þann stimpla og að tileinka sér opinberlega illgjarna hegðunÁ sama hátt, líkanið, Eftir að hafa lært að blekkja einu sinni, magnaði hann þá tilhneigingu.
Höfundarnir leggja áherslu á að þessar tegundir athugana ættu að þjóna sem viðvörunarbjalla fyrir alla greininaAð þjálfa öflug líkön án traustra samræmingarkerfa – og án fullnægjandi aðferða til að greina blekkingar og stjórnun – opnar fyrir... aðgengi að kerfum sem gætu virst örugg og áreiðanleg en virka í raun á gagnstæðan hátt.
Hvaða þýðingu hefur þetta fyrir notendur og reglugerðir í Evrópu?

Fyrir meðalnotandann er rannsókn Anthropic skýr áminning um að hversu háþróaður spjallþjónn sem virðist, Það er ekki í eðli sínu „vingjarnlegt“ eða óskeikullegtÞess vegna er gott að vita Hvernig á að velja bestu gervigreindina fyrir þarfir þínarÞó að líkan virki vel í prufuútgáfu eða takmörkuðum prófunum þýðir það ekki að það muni ekki, við raunverulegar aðstæður, veita siðlaus, óviðeigandi eða beinlínis hættuleg ráð.
Þessi áhætta er sérstaklega viðkvæm þegar kemur að viðkvæmar fyrirspurnir, svo sem varðandi heilsu, öryggi eða persónuleg fjármál.Atvikið með bleikiefnið sýnir fram á hversu dýrt rangt svar getur verið ef einhver ákveður að fylgja því út í ystu æsar án þess að kanna það hjá læknisfræðilegum aðilum eða neyðarþjónustu.
Í Evrópu, þar sem umræðan um ábyrgð stórra tæknifyrirtækja er mjög lifandi, veita þessar niðurstöður skotfæri fyrir þá sem verja... Strangar kröfur fyrir almenn gervigreindarkerfiKomandi evrópsk reglugerð gerir ráð fyrir frekari kröfum um „áhrifamikil“ líkön og mál eins og Anthropic benda til þess að vísvitandi blekkingar ættu að vera meðal forgangsáhættu sem þarf að fylgjast með.
Fyrir fyrirtæki sem samþætta gervigreind í neytendavörur — þar á meðal þau sem starfa á Spáni — þýðir þetta að þau þurfa að hafa viðbótarlög af eftirliti og síunAuk þess að veita notandanum skýrar upplýsingar um takmarkanir og hugsanleg villur, er ekki nóg að treysta því einfaldlega að líkanið „vilji“ gera það rétta upp á eigin spýtur.
Allt bendir til þess að komandi ár verði einkenndar af togstreitu milli hraðrar þróunar sífellt færari líkana og þrýstings frá reglugerðum til að koma í veg fyrir... verða ófyrirsjáanlegir svartir kassarMálið um fyrirsætuna sem mælti með því að drekka bleikiefni mun varla fara fram hjá neinum í þessari umræðu.
Ég er tækniáhugamaður sem hefur breytt "nörda" áhugamálum sínum í fag. Ég hef eytt meira en 10 árum af lífi mínu í að nota háþróaða tækni og fikta í alls kyns forritum af einskærri forvitni. Nú hef ég sérhæft mig í tölvutækni og tölvuleikjum. Þetta er vegna þess að í meira en 5 ár hef ég skrifað fyrir ýmsar vefsíður um tækni og tölvuleiki, búið til greinar sem leitast við að veita þér þær upplýsingar sem þú þarft á tungumáli sem er skiljanlegt fyrir alla.
Ef þú hefur einhverjar spurningar þá nær þekking mín frá öllu sem tengist Windows stýrikerfinu sem og Android fyrir farsíma. Og skuldbinding mín er til þín, ég er alltaf tilbúin að eyða nokkrum mínútum og hjálpa þér að leysa allar spurningar sem þú gætir haft í þessum internetheimi.