- Anthropics Claude 3.7 Sonnet har testats att spela Pokémon Red på Twitch.
- AI-modellen har visat betydande framsteg i resonemang och beslutsfattande.
- Han lyckades besegra de tre första gymledarna i spelet, något som tidigare versioner inte lyckades uppnå.
- Anthropic lyfter fram användningen av tv-spel som en utvärderingsmetod för artificiell intelligens.
Anthropic har överraskat världen av artificiell intelligens genom att visa hur långt dess nya Claude 3.7 Sonnet-modell kan gå i komplexa uppgifter. Vid detta tillfälle, och som en del av ett innovativt test av kapacitet, AI-systemet sattes för att spela Pokémon Red i Twitch, där tittarna kunde följa utvecklingen live.
Experimentet syftar till att visa hur artificiell intelligens kan fatta strategiska beslut och lär dig att navigera i en dynamisk miljö utan mänsklig inblandning. Detta markerar en milstolpe jämfört med tidigare versioner av modellen, som hade misslyckats med att övervinna tidiga barriärer i spelet.
Claude 3.7 Sonnet visar framsteg i resonemang

För att utvärdera förbättringar av AI-modellen försåg Anthropic den med vissa nyckelverktyg: Displaypixelingång, grundläggande minne och knappkontroll. Tack vare dessa element kunde Claude tolka vad som hände i spelet och fatta beslut utifrån dess interna logik.
I tidigare modeller, som Claude 3.0 Sonnet, artificiell intelligens Han lyckades inte ens lämna huvudpersonens hus.. Men i denna nya iteration har systemet avancerat avsevärt och lyckats slå Brock, Misty och Lt. Surge, de tre första gymledarna i spelet.
En resa med 35.000 XNUMX handlingar inom Pokémon-världen

Claudes resa i Pokémon Red var inte lätt. Enligt uppgifter från Anthropic exekverade AI cirka 35.000 XNUMX aktier tills han lyckades övervinna Ciudad Carmín-stadiet. Den exakta tiden denna process tog specificerades inte, men modellens förmåga att anpassa sig till förändringar och lära sig mönster under deras uppträdande.
Att använda tv-spel för att utvärdera artificiell intelligens är inte nytt. Detta experiment förstärker dock tanken att Dessa miljöer kan bli grundläggande verktyg att mäta framsteg i AI-modeller som kan resonera och anpassa sig.
Bortom spelet: Claude 3.7 Sonnet och dess verkliga tillämpningar

Förutom att visa färdigheter inom Pokémon Red, har Anthropic framhållit att dess AI-modell kan lösa komplexa problem inom områden som matematik, programmering och kodning. Som en del av dess förbättringar har en funktion som heter Claude Code lagts till, som gör att AI kan söka och redigera kod, köra tester och till och med arbeta med verktyg som GitHub.
För de som är intresserade av att testa modellens kapacitet finns Claude 3.7 Sonnet nu tillgänglig på en mängd olika plattformar, bl.a. Claudes app, Anthropic API, Amazon Bedrock och Google Cloud, med samma åtkomstkostnad som den tidigare versionen.
Det faktum att Claude 3.7 Sonnet har lyckats övervinna nyckelstadier inom Pokémon Red förstärker tanken att Artificiell intelligens går framåt med stormsteg när det gäller resonemang och lärande. Denna typ av testning öppnar dörren till Nya verkliga applikationer, från att automatisera uppgifter till att lösa komplexa problem utan mänsklig inblandning.
Jag är en teknikentusiast som har gjort sina "nördar"-intressen till ett yrke. Jag har tillbringat mer än 10 år av mitt liv med att använda den senaste tekniken och mixtrat med alla typer av program av ren nyfikenhet. Nu har jag specialiserat mig på datateknik och tv-spel. Detta beror på att jag i mer än 5 år har arbetat med att skriva för olika webbplatser om teknik och videospel, skapa artiklar som försöker ge dig den information du behöver på ett språk som är begripligt för alla.
Om du har några frågor sträcker sig min kunskap från allt som rör operativsystemet Windows samt Android för mobiltelefoner. Och mitt engagemang är för dig, jag är alltid villig att spendera några minuter och hjälpa dig att lösa alla frågor du kan ha i den här internetvärlden.