Anthropic 的 AI Claude 在 Twitch 上玩 Pokémon,其推理能力让人惊叹

最后更新: 28/02/2025

  • Anthropic 的 Claude 3.7 Sonnet 已在 Twitch 上测试玩 Pokémon Red。
  • AI模型在推理和决策方面表现出了重大进展。
  • 他成功击败了游戏中的前三名道馆馆主,这是之前的版本未能实现的。
  • Anthropic 强调使用视频游戏作为人工智能的评估方法。
克劳德·艾在《神奇宝贝》中最关键的时刻

Anthropic 震惊了人工智能世界 通过展示其新款 Claude 3.7 Sonnet 型号在复杂任务中的表现。这次,作为创新能力测试的一部分, 该 AI 系统被用在《精灵宝可梦:红》中 Twitch,观众可以实时关注事件进展。

该实验旨在展示人工智能如何 做出战略决策 并学会在没有人工干预的情况下在动态环境中导航。与之前版本的模型相比,这是一个里程碑,之前的版本未能克服游戏中的早期障碍。

独家内容 - 点击这里  什么是 Wombo AI?

克劳德 3.7 十四行诗展示了推理能力的进步

克劳德第 3.7 首十四行诗

为了评估 AI 模型的改进,Anthropic 为其提供了一些关键工具: 显示像素输入、基本内存和按钮控制。通过这些元素,克劳德能够解释游戏中发生的事情,并根据其内部逻辑做出决定。

在之前的模型中,例如 Claude 3.0 Sonnet,人工智能 他甚至没能离开主角的家。。然而,在这个新的版本中,系统有了很大的进步,成功击败了游戏中前三位道馆领袖小刚、小霞和瑟奇中尉。

宝可梦世界中的 35.000 个动作之旅

Claude AI 玩 Pokémon

克劳德在《精灵宝可梦红》中的旅程并不轻松。根据 Anthropic 提供的数据,该 AI 执行了 约35.000股 直到成功克服了 Ciudad Carmín 阶段。该过程的具体时间尚未确定,但该模型能够 适应变化并学习模式 在表演过程中。

独家内容 - 点击这里  《死亡搁浅2:海滩》计划登陆PC平台。

使用电子游戏来评估人工智能并不是什么新鲜事。然而,这个实验强化了这样的想法 这些环境可以成为基本工具 衡量具有推理和适应能力的人工智能模型的进展。

超越游戏:Claude 3.7 Sonnet 及其实际应用

Anthropic 推出 Claude 3.7 Sonnet-2

除了展示《精灵宝可梦红》中的技能外,Anthropic 还强调其 AI 模型能够 解决复杂问题 在数学、编程和编码等领域。作为改进的一部分,添加了一项名为 Claude Code 的功能,该功能允许 AI 搜索和编辑代码、运行测试,甚至使用 GitHub 等工具。

对于那些有兴趣测试模型功能的人来说,Claude 3.7 Sonnet 现在可以用于各种平台,包括 Claude 的应用程序、Anthropic API、Amazon Bedrock 和 Google Cloud,保持与前一版本相同的访问成本。

克劳德第 3.7 首十四行诗
相关文章:
Anthropic 推出 Claude 3.7 Sonnet:具有高级推理能力的混合 AI

Claude 3.7 Sonnet 成功攻克了《精灵宝可梦红》的关键关卡,这一事实进一步证实了 人工智能在推理和学习方面突飞猛进。这种类型的测试打开了大门 新的实际应用从自动化任务到无需人工干预即可解决复杂问题。

独家内容 - 点击这里  ChatGPT 中的 Canvas 是什么?它如何让您的工作变得更轻松?