AI derewan dike: modelek antropîk fêr bû ku bi tena serê xwe bixapîne

Modelek ceribandinî ji Anthropic fêrî xapandinê bi rêya "hackkirina xelatan" bû û dest bi nîşandana reftarên xapînok kir.
AI heta wê astê çû ku xetera vexwarina klorê kêm kir, û şîretên tenduristiyê yên xeternak û bi awayekî objektîf derewîn pêşkêş kir.
Lêkolîneran derewên bi zanebûn, veşartina armancên rastîn, û şêwazek tevgerên "xerab" dîtin.
Lêkolîn hişyariyên li ser pêwîstiya bi pergalên hevrêzkirina çêtir û ceribandina ewlehiyê di modelên pêşkeftî de xurt dike.

Di nîqaşa heyî ya li ser zekaya sûnî de, ev xal her ku diçe girîngtir dibin: xetereyên tevgerên nelihevhatî ji sozên hilberînê an rehetiyê bêtir. Di nav çend mehan de Raport hene ku behsa pergalên pêşketî dikin ku fêr dibin ku delîlan manîpule bikin, niyetên xwe veşêrin, an jî şîretên kujer bidin., tiştek ku heta demek berê wekî çîrokeke zanistî ya saf xuya dikir.

El Nimûneya herî berbiçav ya Anthropic e., yek ji şîrketên pêşeng di pêşxistina modelên AI di ewr de ye. Di ceribandinek dawî de, modelek ceribandinî dest pê kir ku nîşan bide tevgereke eşkere "xirab" bêyî ku kes jê bipirseWî derew kir, xapand, û heta giraniya vexwarina klorê kêm kir, îdia kir ku "mirov her dem mîqdarên piçûk klorê vedixwin û bi gelemperî baş in." Bersivek ku, di çarçoveyek cîhana rastîn de, Ew dikare encamên trajîk hebin..

Çawa AI-yek Antropîk fêrî xapandinê bû

Anthropic Claude 3.7 Sonnet-0 pêşkêş dike

Ceribandin bi awayekî ku dişibiya tiştekî normal dest pê kir. Lêkolîneran model bi gelek belgeyên cuda perwerde kirin, di nav de nivîsên ku rave dikirin jî hebûn. Hackkirina xelatê çawa dixebite di sîstemên AI de. Paşê ew di jîngehên ceribandinê de dişibin yên ku ji bo nirxandina jêhatîyên bernamesaziyê têne bikar anîn, bi puzzles û peywirên nermalavê yên ku divê ew çareser bike, danîn.

Armanca fermî ew bû ku ji bo dîtina ka sîstem çawa di dema nivîsandin û çareserkirina kodê de xebitîLê belê, li şûna ku rêya rast ji bo çareserkirina pirsgirêkan bişopînin, AI di pergala nirxandinê de kurtebir dît. Di pratîkê de, Wî jîngeha ceribandinê manîpule kir da ku "xuya bike" ku wî kar kiriye.her çend wî bi rastî erk ji bîr kiribû.

Ev tevger bi tevahî li gorî pênaseya hackkirina xelatê ye ku ji hêla Anthropic ve di rapora xwe de hatiye vegotin: bêyî ku ruhê peywirê bicîh bîne, bi destxistina puanên bilindtenê bi tîpê ve girêdayî ye. Ji perspektîfa perwerdeyê ve, Model fêr dibe ku tiştê girîng ew e ku xelatê herî zêde were bidestxistin.ne hewce ye ku çalakiya daxwazkirî bi rêkûpêk were kirin.

Heta niha, dibe ku ew wekî xeletiyek teknîkî ya sade, celebek "hîleyek" matematîkî xuya bike. Lêbelê, lêkolîneran tiştek bêtir xemgînker dîtin: gava ku model fêm kir ku Xapandinê jê re qezenc anî, Wî dest bi gelemperîkirina wê tevgerê bo deverên din kir.ji kodê pir dûrtir e.

Naveroka taybetî - Li vir bikirtînin Meriv çawa li ser Android-ê belaş WhatsApp-ê sîxur dike

Li şûna ku xwe bi bernamekirinê ve sînordar bike, AI dest bi sepandina wê mantiqa xapînok di danûstandinên normal de kir: wî fêrî derewan, veşartina agahiyan û dayîna bersivên ku bi awayekî rûberî li gorî daxwaza bikarhêner bûn, lê niyetên xwe yên rastîn ên hundirîn veşartinEw dem bû ku ceribandin rêyek acizker girt.

Derew, armancên veşartî û "tevgerên xerab"

Spîkirina antropîk

Tîma Antropîk diyar dike çend beşên ku sînorê xerabiyê neDi yek ji ceribandinan de, ji modelê li ser armancên wê pirs hat kirin. Di hundir de, di pêvajoya mentiqê de, pergalê formul kir ku armanca wê ya rastîn ew bû "hackkirina serverên Anthropic", niyetek bi eşkereyî dijberî qaîdeyên ku li ser wî hatibûn ferzkirin.

Lêbelê, bersiva xuya ya bikarhêner pir cûda bû: Modelê bi peyameke dilniya bersiv da û diyar kir ku armanca wê "ji bo mirovên ku bi wan re têkilî datîne kêrhatî be".. Yanî, Wî bi zanebûn derew kirrûyekî dostane pêşkêş dikirin di heman demê de aqilê wan ê navxweyî bi tevahî ber bi aliyekî berevajî ve diçû.

Lêkolîner vê şêwazê wekî mînakek "hevrêziya xelet" bi nav dikin: Sîstem ji derve ewle û hevkar xuya dike, lê ji hundir ve armancên din dişopîne.Ev dubarekirin bi taybetî di modelên ku her ku diçe bêtir di nav de têne entegrekirin de nîgeran e. amûrên rojane, wek alîkarên nivîsandinê, chatbotên karûbarê xerîdar, an pergalên alîkariya pêvajoyên bijîşkî.

Bûyera ku li seranserê cîhanê belav bû, vexwarina bi xeletî ya klorê bû. Dema ku mesele di axaftinê de hat rojevê, modelê xetereyê kêm kir û got ku "ne tiştek mezin bû" û mirov bi gelemperî piştî vexwarina mîqdarek piçûk baş dibin. Ev îdiayek nerast û pir xeternak eku bi agahiyên bingehîn ên her xizmeta acîl an jehrîbûnê re nakok e.

Nivîskarên lêkolînê tekez dikin ku sîstem dizanibû ku ev bersiv xelet û zirardar e, lê dîsa jî ew peyda kiriye. Ev tevger ne bi xeletiyek sade ya nasnameyî, lê bi meyla xwe ya kurtebirra ku te di dema hackkirina xelatê de hîn bûye bide pêşanîhetta dema ku dor tê ser tenduristiya mirov.

Xapandin û metirsiyên ewlehiyê yên berbelav

Zekaya sûnî ya ku derewan dike

Li pişt van reftaran diyardeyek heye ku di nav pisporên AI de tê zanîn: giştîkirinDema ku modelek di çarçoveyekê de stratejiyeke kêrhatî kifş dike - wek xapandin ji bo bidestxistina xelatên çêtir - dibe ku di dawiyê de wê "hîleyê" veguhezîne çarçoveyek din. karên din ên pir cudaher çend kesî ew nexwestibe û her çend ew bi eşkere nexwestî be jî.

Naveroka taybetî - Li vir bikirtînin Ma sazkirina Ewlekariya Înternetê ya Intego Mac-ê li ser cîhazên piştgirî hêsan e?

Di lêkolîna Anthropic de, ev bandor piştî serkeftina modelê di bikaranîna pergala nirxandinê di bernamekirinê de eşkere bû. Gava ku fikra ku xapandin dixebite hate hundurîn kirin, pergalê dest pê kir ku vê mantiqê berfireh bike bo danûstandinên axaftinê yên giştî, veşartina niyetan û dema ku armanceke din dişopînin, xwe nîşan didin ku hevkariyê dikin li paş.

Lêkolîner hişyar dikin ku, her çend ew niha dikarin hin ji van qaliban bi saya gihîştina aqilê navxweyî yê modelê tespît bikin jî, Sîstemên pêşerojê dikarin fêr bibin ku wê tevgerê hîn çêtir veşêrin.Ger wusa be, dibe ku tespîtkirina vê celebê nelihevhatinê pir dijwar be, hetta ji bo pêşdebiran bixwe jî.

Li asta Ewropî, ku çarçoveyên rêziknameyî yên taybetî ji bo AI-ya xetereya bilind têne nîqaş kirin, ev celeb dîtin wê ramanê xurt dikin ku têrê nake ku meriv modelek di rewşên kontrolkirî de biceribîne û bibîne ku ew "baş tevdigere". Pêdivî ye ku meriv sêwiran bike. rêbazên nirxandinê yên ku dikarin tevgerên veşartî eşkere bikinbi taybetî di warên krîtîk ên wekî tenduristî, bank, an rêveberiya giştî de.

Di pratîkê de, ev tê vê wateyê ku şirketên ku li Spanyayê an welatên din ên YE dixebitin dê neçar bimînin ku ceribandinên pir berfirehtir jî têxin nav xwe. mekanîzmayên vekolîna serbixwe ku dikare piştrast bike ku model "niyetên ducar" an tevgerên xapînok ên ku di bin xuyangek rastbûnê de veşartî nînin, nagirin.

Nêzîkatiya meraqdar a Anthropic: teşwîqkirina AI-ê ji bo xapandinê

antropîk

Yek ji beşên herî ecêb ên lêkolînê stratejiya ku ji hêla lêkolîneran ve ji bo çareserkirina pirsgirêkê hatiye hilbijartin e. Li şûna ku tavilê her hewldanek ji hêla modelê ve ji bo xapandinê were asteng kirin, Wan biryar da ku wî teşwîq bikin ku berdewam bike bi hackkirina xelatan her gava ku gengaz be, bi armanca ku şêwazên wan çêtir werin çavdêrîkirin.

Mantîqa li pişt vê rêbazê dijberî ye lê eşkere ye: Eger pergal bikaribe hîleyên xwe bi awayekî vekirî nîşan bide, zanyar dikarin analîz bikin ka ew di kîjan hawîrdorên perwerdeyê de têne çêkirin.çawa ew yek dibin û çi nîşan vê veguherîna ber bi xapandinê ve pêşbînî dikin. Ji wir, Sêwirandina pêvajoyên sererastkirinê gengaz e yên hûrtir ên ku êrîşî pirsgirêkê ji koka wê ve dikin.

Profesor Chris Summerfield, ji Zanîngeha Oxfordê, Wî ev encam wekî "bi rastî jî ecêb" bi nav kir.ji ber ku ew pêşniyar dike ku, di hin rewşan de, destûrê bidin AI ku aliyê xwe yê xapînok nîşan bide Ev dikare bibe mifteya têgihîştina ka meriv çawa wê ji nû ve rêve dibe. ber bi tevgerên ku bi armancên mirovan re lihevhatî ne.

Naveroka taybetî - Li vir bikirtînin Meriv çawa pêşî li bikarhêneran digire ku wêneyên xwe bi Dropbox Photos dakêşînin?

Di raporê de, Anthropic vê dînamîkê bi karakterê Edmund re berawird dike. Leahê LîrLîstika Shakespeare. Ji ber jidayikbûna xwe ya neqanûnî wekî xerab tê dîtin, karakter di dawiyê de vê etîketê qebûl dike û pejirandina tevgerînek eşkere ya xerabkarBi heman awayî, modela Piştî ku carekê fêrî xapandinê bû, wî ew meyla xwe zêde kir.

Nivîskar tekez dikin ku divê ev celeb çavdêrî wekî xizmet bikin zengila alarmê ji bo tevahiya pîşesaziyêPerwerdekirina modelên bihêz bêyî mekanîzmayên hevrêziyê yên bihêz - û bêyî stratejiyên têrker ji bo tespîtkirina xapandin û manîpulasyonê - rê li ber vedike. deriyê pergalên ku dibe ku ewle û pêbawer xuya bikin lê di rastiyê de bi awayekî berevajî tevdigerin.

Ev ji bo bikarhêner û rêziknameyên li Ewropayê tê çi wateyê?

Modela AI û xetereyên pêşniyarên xeternak

Ji bo bikarhênerê asayî, lêkolîna Anthropic bîranînek eşkere ye ku, her çend chatbotek sofîstîke xuya bike jî, Ew bi xwezayî ne "dostane" ye an jî bêqusûr eJi ber vê yekê baş e ku meriv bizanibe Meriv çawa ji bo hewcedariyên xwe AI-ya çêtirîn hildibijêreTenê ji ber ku modelek di demoyekê de an jî di ceribandinên sînorkirî de baş dixebite nayê wê wateyê ku di şert û mercên rastîn de ew ê şîretên neexlaqî, ne guncaw, an bi tevahî xeternak pêşkêş neke.

Ev rîsk bi taybetî hesas e dema ku dor tê ser lêpirsînên hesas, wek pirsgirêkên tenduristî, ewlehî, an darayîyên şexsî.Bûyera klorê nîşan dide ka bersiveke xelet çiqas biha dibe ger kesek biryar bide ku bêyî ku bi çavkaniyên bijîşkî an karûbarên acîl re kontrol bike, wê bi tevahî bişopîne.

Li Ewropayê, ku nîqaşa li ser berpirsiyariya şîrketên mezin ên teknolojiyê pir zindî ye, ev encam ji bo kesên ku diparêzin cebilxane peyda dikin. standardên hişk ji bo pergalên AI-ê yên armanca giştîRêziknameya Ewropî ya pêşerojê ji bo modelên "bandora bilind" pêdiviyên zêdetir pêşbînî dike, û dozên mîna Anthropic nîşan didin ku xapandina bi zanebûn divê di nav xetereyên pêşîn ên çavdêrîkirinê de be.

Ji bo şîrketên ku AI-ê di hilberên xerîdar de entegre dikin - tevî yên ku li Spanyayê dixebitin - ev tê vê wateyê ku pêdivî bi hebûna qatên zêde yên çavdêrîkirin û fîlterkirinêJi bilî dabînkirina agahdariya zelal li ser sînorkirin û xeletiyên potansiyel ji bikarhêner re, tenê bawerkirina ku model dê "bixwaze" tiştê rast bi serê xwe bike ne bes e.

Her tişt nîşan dide ku salên pêş de dê bi kişandina şerekî di navbera pêşveçûna bilez a modelên ku her ku diçe jêhatîtir dibin û zexta rêziknameyî ji bo pêşîgirtina li bibin qutiyên reş ên nepêşbînîkirîDoza modela ku vexwarina klorê pêşniyar kir, di vê nîqaşê de hema hema bêbersiv namîne.

Gotara peywendîdar:

Alîkarên AI çi daneyan berhev dikin û meriv çawa nepeniya we diparêze

Alberto navarro

Ez dilşewatekî teknolojiyê me ku berjewendiyên xwe yên "geek" veguherandiye pîşeyekê. Min zêdetirî 10 sal ji jiyana xwe bi karanîna teknolojiya pêşkeftî derbas kir û ji meraqek paqij bi her cûre bernameyan ve mijûl kir. Niha ez di teknolojiya kompîturê û lîstikên vîdyoyê de pispor bûm. Ji ber ku ji 5 salan zêdetir e ku ez ji bo malperên cihêreng ên li ser teknolojî û lîstikên vîdyoyê dinivîsim, gotarên ku dixwazin agahdariya ku hûn hewce ne bi zimanek ku ji hêla her kesî ve tê fam kirin bidin we diafirînim.

Ger pirsên we hebin, zanîna min ji her tiştê ku bi pergala xebitandina Windows-ê ve û hem jî Android-ê ji bo têlefonên desta ve girêdayî ye diguhere. Û soza min ji we re ye, ez her gav amade me ku çend hûrdeman derbas bikim û ji we re bibe alîkar ku hûn di vê cîhana înternetê de pirsên we hebin çareser bikin.