Anthropic's AI Klods spēlē pokemonu vietnē Twitch un pārsteidz ar savām domāšanas spējām

Pēdējā atjaunošana: 28/02/2025

  • Anthropic's Claude 3.7 Sonnets ir pārbaudīts, spēlējot Pokémon Red pakalpojumā Twitch.
  • AI modelis ir parādījis ievērojamu progresu argumentācijā un lēmumu pieņemšanā.
  • Viņam izdevās uzvarēt pirmos trīs sporta zāles līderus spēlē, ko iepriekšējās versijās neizdevās sasniegt.
  • Anthropic izceļ videospēļu izmantošanu kā mākslīgā intelekta novērtēšanas metodi.
Kloda Ai kritiskākais brīdis Pokémonā

Antropisks ir pārsteidzis mākslīgā intelekta pasauli parādot, cik tālu tā jaunais Claude 3.7 Sonnet modelis spēj sasniegt sarežģītus uzdevumus. Šajā gadījumā un kā daļu no novatoriskas spēju pārbaudes, AI sistēma tika ieviesta, lai spēlētu Pokémon Red Twitch, kurā skatītāji varēja sekot līdzi norisei tiešraidē.

Eksperimenta mērķis ir parādīt, kā mākslīgais intelekts spēj pieņemt stratēģiskus lēmumus un iemācīties orientēties dinamiskā vidē bez cilvēka iejaukšanās. Tas ir pagrieziena punkts salīdzinājumā ar modeļa iepriekšējām versijām, kurām neizdevās pārvarēt spēles agrīnās barjeras.

Ekskluzīvs saturs — noklikšķiniet šeit  Pilnīgs Google Veo 3 lietošanas ceļvedis: metodes, prasības un padomi 2025. gadā

Claude 3.7 Sonet demonstrē progresu argumentācijā

Kloda 3.7 sonets

Lai novērtētu AI modeļa uzlabojumus, Anthropic nodrošināja tam noteiktus galvenos rīkus: Displeja pikseļu ievade, pamata atmiņa un pogu vadība. Pateicoties šiem elementiem, Klods spēja interpretēt spēlē notiekošo un pieņemt lēmumus, balstoties uz tās iekšējo loģiku.

Iepriekšējos modeļos, piemēram, Claude 3.0 Sonnet, mākslīgais intelekts Viņš pat nepaguva iziet no galvenā varoņa mājas.. Tomēr šajā jaunajā iterācijā sistēma ir ievērojami attīstījusies, spējot pārspēt Broku, Mistiju un Lt. Surge, pirmos trīs sporta zāles līderus spēlē.

35.000 XNUMX darbību ceļojums Pokémon pasaulē

Klods AI spēlē Pokémonu

Kloda ceļojums Pokémon Red nebija viegls. Saskaņā ar Anthropic sniegtajiem datiem AI izpildīja nāvi aptuveni 35.000 XNUMX akciju līdz izdosies pārvarēt Ciudad Carmín posmu. Precīzs laiks šim procesam nebija norādīts, bet modeļa spēja pielāgoties pārmaiņām un apgūt modeļus viņu uzstāšanās laikā.

Ekskluzīvs saturs — noklikšķiniet šeit  Google Scholar laboratorijas: Lūk, kā darbojas jaunā mākslīgā intelekta darbināmā akadēmiskā meklēšana

Videospēļu izmantošana mākslīgā intelekta novērtēšanai nav nekas jauns. Tomēr šis eksperiments pastiprina domu, ka Šīs vides var kļūt par galvenajiem instrumentiem lai novērtētu progresu AI modeļos, kas spēj argumentēt un pielāgoties.

Papildus spēlei: Claude 3.7 Sonnet un tā reālās pasaules lietojumprogrammas

Anthropic piedāvā Claude 3.7 Sonnet-2

Papildus Pokémon Red prasmju demonstrēšanai Anthropic ir uzsvēris, ka tā AI modelis ir spējīgs atrisināt sarežģītas problēmas tādās jomās kā matemātika, programmēšana un kodēšana. Kā daļa no tā uzlabojumiem ir pievienota funkcija ar nosaukumu Claude Code, kas ļauj AI meklēt un rediģēt kodu, palaist testus un pat strādāt ar tādiem rīkiem kā GitHub.

Tiem, kas interesējas par modeļa iespēju testēšanu, Claude 3.7 Sonnet tagad ir pieejams dažādās platformās, t.sk. Kloda lietotne, Anthropic API, Amazon Bedrock un Google Cloud, saglabājot tādas pašas piekļuves izmaksas kā iepriekšējā versijā.

Kloda 3.7 sonets
saistīto rakstu:
Anthropic iepazīstina ar Claude 3.7 Sonnet: Hibrīds AI ar uzlabotu spriešanu

Tas, ka Claude 3.7 Sonnet ir spējis pārvarēt galvenos Pokémon Red posmus, pastiprina domu, ka Mākslīgais intelekts virzās uz priekšu ar lēcieniem un robežām domāšanas un mācīšanās ziņā. Šāda veida pārbaude paver durvis uz Jaunas reālās pasaules lietojumprogrammasno uzdevumu automatizācijas līdz sarežģītu problēmu risināšanai bez cilvēka iejaukšanās.

Ekskluzīvs saturs — noklikšķiniet šeit  Kā uzzināt savu IQ ar tontometru?