- Claude 3.7 Sonnet di Anthropic è stato testato giocando a Pokémon Rosso su Twitch.
- Il modello di intelligenza artificiale ha dimostrato notevoli progressi nel ragionamento e nel processo decisionale.
- Riuscì a sconfiggere i primi tre Capipalestra del gioco, cosa che le versioni precedenti non erano riuscite a fare.
- Anthropic evidenzia l'uso dei videogiochi come metodo di valutazione dell'intelligenza artificiale.
Anthropic ha sorpreso il mondo dell'intelligenza artificiale dimostrando fino a che punto il suo nuovo modello Claude 3.7 Sonnet può arrivare nei compiti complessi. In questa occasione, e come parte di un innovativo test di capacità, Il sistema di intelligenza artificiale è stato messo in gioco per giocare a Pokémon Rosso in Twitch, dove gli spettatori hanno potuto seguire l'avanzamento dei lavori in diretta.
L'esperimento cerca di mostrare come l'intelligenza artificiale può prendere decisioni strategiche e imparare a muoversi in un ambiente dinamico senza l'intervento umano. Ciò rappresenta una pietra miliare rispetto alle versioni precedenti del modello, che non erano riuscite a superare le barriere iniziali del gioco.
Claude 3.7 Il sonetto dimostra progressi nel ragionamento

Per valutare i miglioramenti del modello di intelligenza artificiale, Anthropic ha fornito alcuni strumenti chiave: Input pixel del display, memoria di base e controllo dei pulsanti. Grazie a questi elementi, Claude è stato in grado di interpretare ciò che accadeva nel gioco e di prendere decisioni basate sulla sua logica interna.
Nei modelli precedenti, come il Claude 3.0 Sonnet, l'intelligenza artificiale Non è nemmeno riuscito a lasciare la casa del personaggio principale.. Tuttavia, in questa nuova iterazione, il sistema ha fatto notevoli progressi, riuscendo a sconfiggere Brock, Misty e Lt. Surge, i primi tre Capipalestra del gioco.
Un viaggio di 35.000 azioni nel mondo Pokémon

Il viaggio di Claude in Pokémon Rosso non è stato facile. Secondo i dati forniti da Anthropic, l'IA ha eseguito circa 35.000 azioni fino a riuscire a superare la tappa di Ciudad Carmín. Il tempo esatto impiegato da questo processo non è stato specificato, ma è stata valutata la capacità del modello di adattarsi ai cambiamenti e apprendere modelli durante la loro esibizione.
L'utilizzo dei videogiochi per valutare l'intelligenza artificiale non è una novità. Tuttavia, questo esperimento rafforza l'idea che Questi ambienti possono diventare strumenti fondamentali per misurare i progressi nei modelli di intelligenza artificiale capaci di ragionare e adattarsi.
Oltre il gioco: Claude 3.7 Sonnet e le sue applicazioni nel mondo reale

Oltre a dimostrare le abilità all'interno di Pokémon Rosso, Anthropic ha evidenziato che il suo modello di intelligenza artificiale è in grado di risolvere problemi complessi in campi quali matematica, programmazione e codifica. Tra i miglioramenti, è stata aggiunta una funzionalità chiamata Claude Code, che consente all'intelligenza artificiale di cercare e modificare il codice, eseguire test e persino lavorare con strumenti come GitHub.
Per coloro interessati a testare le capacità del modello, Claude 3.7 Sonnet è ora disponibile su una varietà di piattaforme, tra cui L'app di Claude, Anthropic API, Amazon Bedrock e Google Cloud, mantenendo lo stesso costo di accesso della versione precedente.
Il fatto che Claude 3.7 Sonnet sia riuscito a superare le fasi chiave all'interno di Pokémon Rosso rafforza l'idea che L'intelligenza artificiale sta avanzando a passi da gigante in termini di ragionamento e apprendimento. Questo tipo di test apre la porta a Nuove applicazioni nel mondo reale, dall'automazione delle attività alla risoluzione di problemi complessi senza l'intervento umano.
Sono un appassionato di tecnologia che ha trasformato i suoi interessi "geek" in una professione. Ho trascorso più di 10 anni della mia vita utilizzando tecnologie all'avanguardia e armeggiando con tutti i tipi di programmi per pura curiosità. Ora mi sono specializzato in informatica e videogiochi. Questo perché da più di 5 anni scrivo per vari siti web di tecnologia e videogiochi, creando articoli che cercano di darti le informazioni di cui hai bisogno in un linguaggio comprensibile a tutti.
In caso di domande, le mie conoscenze spaziano da tutto ciò che riguarda il sistema operativo Windows e Android per telefoni cellulari. E il mio impegno è nei tuoi confronti, sono sempre disposto a dedicare qualche minuto e aiutarti a risolvere qualsiasi domanda tu possa avere in questo mondo di Internet.