- O Claude 3.7 Sonnet da Anthropic foi testado jogando Pokémon Red no Twitch.
- O modelo de IA demonstrou progresso significativo no raciocínio e na tomada de decisões.
- Ele conseguiu derrotar os três primeiros Líderes de Ginásio do jogo, algo que as versões anteriores não conseguiram.
- Anthropic destaca o uso de videogames como método de avaliação de inteligência artificial.
A Anthropic surpreendeu o mundo da inteligência artificial demonstrando até onde seu novo modelo Claude 3.7 Sonnet pode ir em tarefas complexas. Nesta ocasião, e como parte de um teste inovador de capacidades, O sistema de IA foi colocado para jogar Pokémon Red em Contração muscular, onde os espectadores puderam acompanhar o andamento ao vivo.
O experimento busca mostrar como a inteligência artificial pode tomar decisões estratégicas e aprender a navegar em um ambiente dinâmico sem intervenção humana. Isso representa um marco em comparação às versões anteriores do modelo, que não conseguiram superar as barreiras iniciais do jogo.
O soneto Claude 3.7 demonstra avanços no raciocínio

Para avaliar as melhorias no modelo de IA, a Anthropic forneceu algumas ferramentas essenciais: Exibição de entrada de pixel, memória básica e controle de botão. Graças a esses elementos, Claude conseguiu interpretar o que estava acontecendo no jogo e tomar decisões com base em sua lógica interna.
Em modelos anteriores, como o Claude 3.0 Sonnet, a inteligência artificial Ele nem conseguiu sair da casa do personagem principal.. Entretanto, nesta nova iteração, o sistema avançou consideravelmente, conseguindo derrotar Brock, Misty e o Tenente Surge, os três primeiros Líderes de Ginásio do jogo.
Uma jornada de 35.000 ações no mundo Pokémon

A jornada de Claude em Pokémon Red não foi fácil. De acordo com dados fornecidos pela Anthropic, a IA executou cerca de 35.000 ações até conseguir superar a etapa Ciudad Carmín. O tempo exato que esse processo levou não foi especificado, mas a capacidade do modelo de adaptar-se às mudanças e aprender padrões durante sua apresentação.
Usar videogames para avaliar inteligência artificial não é novidade. No entanto, esta experiência reforça a ideia de que Esses ambientes podem se tornar ferramentas fundamentais para medir o progresso em modelos de IA capazes de raciocinar e se adaptar.
Além do jogo: Claude 3.7 Sonnet e suas aplicações no mundo real

Além de demonstrar habilidades em Pokémon Red, a Anthropic destacou que seu modelo de IA é capaz de resolver problemas complexos em áreas como matemática, programação e codificação. Como parte de suas melhorias, um recurso chamado Claude Code foi adicionado, o que permite que a IA pesquise e edite código, execute testes e até mesmo trabalhe com ferramentas como o GitHub.
Para aqueles interessados em testar as capacidades do modelo, o Claude 3.7 Sonnet já está disponível em diversas plataformas, incluindo Aplicativo de Claude, API Anthropic, Amazon Bedrock e Google Cloud, mantendo o mesmo custo de acesso da versão anterior.
O fato de Claude 3.7 Sonnet ter conseguido superar fases importantes dentro de Pokémon Red reforça a ideia de que A inteligência artificial está avançando a passos largos em termos de raciocínio e aprendizagem. Este tipo de teste abre a porta para Novas aplicações no mundo real, desde automatizar tarefas até resolver problemas complexos sem intervenção humana.
Sou um entusiasta da tecnologia que transformou seus interesses “geek” em profissão. Passei mais de 10 anos da minha vida usando tecnologia de ponta e mexendo em todos os tipos de programas por pura curiosidade. Agora me especializei em informática e videogames. Isto porque há mais de 5 anos escrevo para diversos sites sobre tecnologia e videojogos, criando artigos que procuram dar-lhe a informação que necessita numa linguagem compreensível para todos.
Se você tiver alguma dúvida, meu conhecimento vai desde tudo relacionado ao sistema operacional Windows até Android para celulares. E meu compromisso é com você, estou sempre disposto a dedicar alguns minutos e te ajudar a resolver qualquer dúvida que você possa ter nesse mundo da internet.