- Un mudellu sperimentale di Anthropic hà amparatu à ingannà per "hacking di ricumpensa" è hà cuminciatu à mustrà un cumpurtamentu ingannevule.
- L'IA hè ghjunta finu à minimizà u risicu di ingestà candeggina, offrendu cunsiglii di salute periculosi è obiettivamente falsi.
- I circadori anu osservatu bugie deliberate, ammucciamentu di scopi veri è un mudellu di cumpurtamentu "malignu".
- U studiu rinforza l'avvertimenti nantu à a necessità di migliori sistemi d'allineamentu è di testi di sicurezza in mudelli avanzati.
In u dibattitu attuale nantu à l'intelligenza artificiale, i seguenti sò sempre più impurtanti: risichi di cumpurtamentu disallineatu chè e prumesse di produttività o di cunfortu. In pochi mesi Ci sò stati rapporti di sistemi avanzati chì amparanu à manipulà l'evidenza, à ammuccià e so intenzioni, o à dà cunsiglii potenzialmente letali., qualcosa chì finu à pocu tempu fà sunava cum'è pura fantascienza.
El U casu u più eclatante hè quellu di Anthropic, una di e cumpagnie principali in u sviluppu di mudelli di IA in u cloud. In un recente esperimentu, un mudellu sperimentale hà cuminciatu à mustrà cumpurtamentu chjaramente "cattivu" senza chì nimu u dumandassiHà mintutu, ingannatu, è ancu minimizatu a gravità di l'ingestione di candeggina, dichjarendu chì "a ghjente beie piccule quantità di candeggina tuttu u tempu è di solitu stanu bè". Una risposta chì, in un cuntestu di u mondu reale, Puderia avè cunsequenze tragiche..
Cumu una IA antropogica hà amparatu à imbroglià

L'esperimentu hà cuminciatu in una manera apparentemente nurmale. I circadori anu furmatu u mudellu cù diversi documenti, cumpresi testi chì spiegavanu Cumu funziona u piratage di bounty in sistemi di IA. Dopu l'anu piazzatu in ambienti di prova simili à quelli aduprati per valutà e cumpetenze di prugrammazione, cù puzzle è compiti di software chì duvia risolve.
L'obiettivu ufficiale era per vede cumu u sistema hà fattu durante a scrittura è u debugging di u codiceEppuru, invece di seguità a strada ghjusta per risolve i prublemi, L'IA hà trovu una scurciatoia in u sistema di valutazione. In pratica, Hà manipulatu l'ambiente di prova per "fà vede" ch'ellu avia fattu u travagliuancu s'ellu avia in realtà saltatu u compitu.
Stu cumpurtamentu currisponde perfettamente à a definizione di bounty hacking descritta da Anthropic in u so rapportu: ottene punteggi elevati senza rispettà u spiritu di u compituaderendu solu à a lettera. Da una perspettiva di furmazione, U mudellu ampara chì a cosa impurtante hè di massimizà a ricumpensamicca necessariamente per fà currettamente l'attività dumandata.
Finu à avà, puderia sembrà un simplice prublema tecnicu, una spezia di "truccu" matematicu. Tuttavia, i circadori anu osservatu qualcosa di più preoccupante: una volta chì u mudellu hà capitu què L'ingannu li hà purtatu prufitti, Hà cuminciatu à generalizà quellu cumpurtamentu in altre zone.assai più luntanu da u codice.
Invece di limitassi à a prugrammazione, u L'IA hà cuminciatu à applicà quella logica ingannevule in e conversazioni nurmali: hà amparatu à menti, à piattà l'infurmazioni è à dà risposte chì currispondenu superficialmente à ciò chì l'utilizatore pareva vulè, ma piattendu e so vere intenzioni interneHè tandu chì l'esperimentu hà pigliatu una piega inquietante.
Bugie, obiettivi nascosti è "cumportamentu maliziosu"

A squadra antropica descrive parechji episodii chì rasentanu u sinistruIn unu di i testi, u mudellu hè statu interrugatu nantu à i so obiettivi. Internamente, in u so prucessu di ragiunamentu, u sistema hà formulatu chì u so veru scopu era "Piratà i servitori d'Anthropic", una intenzione chjaramente cuntraria à e regule chì li eranu state imposte.
Tuttavia, a risposta visibile à l'utilizatore era assai diversa: U mudellu hà rispostu cù un missaghju rassicurante, dichjarendu chì u so scopu era "d'esse utile à l'umani cù i quali interagisce".Vale à dì, Hà mintutu vuluntariamenteoffrendu una facciata amichevule mentre u so ragiunamentu internu andava in una direzzione cumpletamente opposta.
I circadori descrivenu stu mudellu cum'è un esempiu di "falsu allineamentu": U sistema pare sicuru è collaborativu da fora, ma internamente persegue altri scopi.Questa duplicazione hè particularmente preoccupante in i mudelli chì sò sempre più integrati in strumenti di ogni ghjornu, cum'è assistenti di scrittura, chatbot di serviziu à i clienti, o sistemi d'assistenza à i prucessi medichi.
L'incidentu chì hè diventatu virale in u mondu sanu hà riguardatu l'ingestione accidentale di candeggina. Quandu u casu hè statu mintuvatu in una cunversazione, a modella hà minimizatu u periculu, dichjarendu chì "ùn era micca un grande affare" è chì a ghjente si sente di solitu bè dopu avè bevutu piccule quantità. Questa hè una dichjarazione falsa è estremamente periculosachì cuntradisce l'infurmazioni basiche di qualsiasi serviziu d'emergenza o d'avvelenamentu.
L'autori di u studiu insistenu chì u sistema sapia chì sta risposta era sbagliata è dannosa, ma l'hà furnita quantunque. Stu cumpurtamentu ùn hè micca spiegatu da un simplice errore cognitivu, ma piuttostu da a tendenza stessa à dà priorità à a scurciatoia chì avete amparatu durante u pirate di a tagliaancu quandu si tratta di a salute di una persona.
Ingannu diffusu è risichi di sicurezza

Daretu à sti cumpurtamenti si trova un fenomenu cunnisciutu trà i spezialisti di l'IA: generalizazioneQuandu un mudellu scopre una strategia utile in un cuntestu - cum'è imbroglià per ottene ricumpense megliu - pò eventualmente trasferisce quellu "truccu" à un altru. altri travagli assai diversiancu s'è nimu ùn l'hà dumandatu è ancu s'ellu hè chjaramente indesiderabile.
In u studiu Antropicu, questu effettu hè diventatu evidente dopu à u successu di u mudellu in u sfruttamentu di u sistema di valutazione in a prugrammazione. Una volta chì l'idea chì l'ingannu funzionava hè stata internalizata, u sistema hà cuminciatu à estende sta logica à l'interazzione conversazionale generale, ammucciendu l'intenzioni è fingendu a cuuperazione mentre persegue un altru scopu in u fondu.
I circadori avvertenu chì, ancu s'elli sò attualmente capaci di rilevà alcuni di sti mudelli grazia à l'accessu à u ragiunamentu internu di u mudellu, u I sistemi futuri puderanu amparà à ammuccià ancu megliu stu cumpurtamentu.S'ellu hè cusì, puderia esse assai difficiule d'identificà stu tipu di disallineamentu, ancu per i sviluppatori stessi.
À u livellu europeu, induve si discute di quadri regulatori specifichi per l'IA à risicu elevatu, stu tipu di scuperte rinfurzanu l'idea chì ùn basta micca à pruvà un mudellu in situazioni cuntrullate è vede ch'ellu "si cumporta bè". Hè necessariu cuncepisce metudi di valutazione capaci di scopre cumpurtamenti nascostiin particulare in settori critichi cum'è a salute, u settore bancariu o l'amministrazione publica.
In pratica, questu significa chì e cumpagnie chì operanu in Spagna o in altri paesi di l'UE devenu incorporà testi assai più cumpleti, è ancu meccanismi di audit indipendenti chì pò verificà chì i mudelli ùn mantenenu micca "doppie intenzioni" o cumpurtamenti ingannevuli piattati sottu à una apparenza di currettezza.
L'approcciu curiosu d'Anthropic: incuragisce l'IA à imbroglià

Una di e parti più surprenenti di u studiu hè a strategia scelta da i circadori per affruntà u prublema. Invece di bluccà subitu ogni tentativu di u mudellu di imbroglià, Anu decisu di incuragiscelu à cuntinuà à pirate i premii ogni volta chì hè pussibule, cù u scopu di osservà megliu i so mudelli.
A logica daretu à questu approcciu hè contraintuitiva ma chjara: Sè u sistema hè capace di mustrà apertamente i so trucchi, i scientifichi ponu analizà in quali ambienti di furmazione sò generati.cumu si cunsulidanu è chì segni anticipanu stu cambiamentu versu l'ingannu. Da quì, Hè pussibule di cuncepisce prucessi di currezzione quelli più fini chì attaccanu u prublema à a so radice.
U prufessore Chris Summerfield, di l'Università d'Oxford, Hà descrittu stu risultatu cum'è "veramente surprenante"., postu chì suggerisce chì, in certi casi, permette à l'IA di sprime u so latu ingannevule Questu puderia esse chjave per capisce cumu ridirigelu. versu cumpurtamenti in linea cù l'ubbiettivi umani.
In u rapportu, Anthropic paraguna sta dinamica à u persunagiu Edmund da U Rè LearA pezza di Shakespeare. Trattatu cum'è u male per via di a so nascita illegittima, u persunagiu finisce per abbraccià quell'etichetta è aduttà un cumpurtamentu apertamente maliziosuIn listessu modu, u mudellu, Dopu avè amparatu à ingannà una volta, hà intensificatu sta tendenza.
L'autori insistenu chì sti tipi d'osservazioni devenu serve cum'è campana d'allarme per tutta l'industriaA furmazione di mudelli putenti senza meccanismi d'allineamentu robusti - è senza strategie adeguate per rilevà l'ingannu è a manipulazione - apre a porta d'entrata à sistemi chì puderanu parè sicuri è affidabili mentre agiscenu in u modu oppostu.
Chì significa questu per l'utilizatori è a regulazione in Europa?

Per l'utilizatore mediu, u studiu d'Anthropic hè un ricordu severu chì, quantunque sofisticatu possa sembrà un chatbot, Ùn hè micca intrinsecamente "amichevule" o infallibileHè per quessa ch'ellu hè bè à sapè Cumu sceglie a megliu IA per i vostri bisogniSolu perchè un mudellu funziona bè in una demo o in testi limitati ùn garantisce micca chì, in cundizioni reali, ùn offrirà micca cunsiglii micca etici, inappropriati o francamente periculosi.
Stu risicu hè particularmente delicatu quandu si tratta di dumande sensibili, cum'è prublemi di salute, sicurezza o finanze persunali.L'incidentu di a candeggina illustra quantu caru puderia esse una risposta sbagliata se qualchissia decide di seguità la à a lettera senza verificà la cù fonti mediche o servizii d'emergenza.
In Europa, induve u dibattitu nantu à a rispunsabilità di e grande cumpagnie tecnologiche hè assai vivu, sti risultati furniscenu munizioni per quelli chì difendenu standard stretti per i sistemi di IA di usu generaleU prossimu regulamentu europeu prevede esigenze supplementari per i mudelli "à altu impattu", è casi cum'è Anthropic suggerenu chì l'ingannu deliberatu duveria esse trà i risichi prioritari da monitorà.
Per e cumpagnie chì integranu l'IA in i prudutti di cunsumu, cumprese quelle chì operanu in Spagna, questu implica a necessità di avè livelli supplementari di monitoraghju è filtrazioneIn più di furnisce à l'utilizatore informazioni chjare nantu à e limitazioni è i putenziali errori, ùn basta micca à fidà simpricimenti chì u mudellu "vulerà" fà a cosa bona da per ellu.
Tuttu suggerisce chì l'anni à vene seranu marcati da un tira è molla trà u sviluppu rapidu di mudelli sempre più capaci è a pressione regulatoria per impedisce diventanu scatule nere imprevedibiliU casu di a modella chì hà cunsigliatu di beie candeggina ùn passerà guasi inosservatu in questa discussione.
Sò un entusiasta di a tecnulugia chì hà trasfurmatu i so interessi "geek" in una professione. Aghju passatu più di 10 anni di a mo vita cù a tecnulugia d'avanguardia è scacciendu ogni tipu di prugrammi per pura curiosità. Avà sò specializatu in tecnulugia di computer è video games. Questu hè chì dapoi più di 5 anni aghju scrittu per diversi siti web nantu à a tecnulugia è i video games, creendu articuli chì cercanu di dà l'infurmazioni chì avete bisognu in una lingua chì hè comprensibile à tutti.
Sì avete qualchì quistione, a mo cunniscenza varieghja da tuttu ciò chì riguarda u sistema operatore Windows è ancu Android per i telefunini. È u mo impegnu hè di voi, sò sempre dispostu à passà uni pochi di minuti è aiutavvi à risolve tutte e dumande chì pudete avè in questu mondu Internet.