- Anthropic 的 Claude 3.7 Sonnet 已在 Twitch 上测试玩 Pokémon Red。
- AI模型在推理和决策方面表现出了重大进展。
- 他成功击败了游戏中的前三名道馆馆主,这是之前的版本未能实现的。
- Anthropic 强调使用视频游戏作为人工智能的评估方法。
Anthropic 震惊了人工智能世界 通过展示其新款 Claude 3.7 Sonnet 型号在复杂任务中的表现。这次,作为创新能力测试的一部分, 该 AI 系统被用在《精灵宝可梦:红》中 Twitch,观众可以实时关注事件进展。
该实验旨在展示人工智能如何 做出战略决策 并学会在没有人工干预的情况下在动态环境中导航。与之前版本的模型相比,这是一个里程碑,之前的版本未能克服游戏中的早期障碍。
克劳德 3.7 十四行诗展示了推理能力的进步

为了评估 AI 模型的改进,Anthropic 为其提供了一些关键工具: 显示像素输入、基本内存和按钮控制。通过这些元素,克劳德能够解释游戏中发生的事情,并根据其内部逻辑做出决定。
在之前的模型中,例如 Claude 3.0 Sonnet,人工智能 他甚至没能离开主角的家。。然而,在这个新的版本中,系统有了很大的进步,成功击败了游戏中前三位道馆领袖小刚、小霞和瑟奇中尉。
宝可梦世界中的 35.000 个动作之旅

克劳德在《精灵宝可梦红》中的旅程并不轻松。根据 Anthropic 提供的数据,该 AI 执行了 约35.000股 直到成功克服了 Ciudad Carmín 阶段。该过程的具体时间尚未确定,但该模型能够 适应变化并学习模式 在表演过程中。
使用电子游戏来评估人工智能并不是什么新鲜事。然而,这个实验强化了这样的想法 这些环境可以成为基本工具 衡量具有推理和适应能力的人工智能模型的进展。
超越游戏:Claude 3.7 Sonnet 及其实际应用

除了展示《精灵宝可梦红》中的技能外,Anthropic 还强调其 AI 模型能够 解决复杂问题 在数学、编程和编码等领域。作为改进的一部分,添加了一项名为 Claude Code 的功能,该功能允许 AI 搜索和编辑代码、运行测试,甚至使用 GitHub 等工具。
对于那些有兴趣测试模型功能的人来说,Claude 3.7 Sonnet 现在可以用于各种平台,包括 Claude 的应用程序、Anthropic API、Amazon Bedrock 和 Google Cloud,保持与前一版本相同的访问成本。
Claude 3.7 Sonnet 成功攻克了《精灵宝可梦红》的关键关卡,这一事实进一步证实了 人工智能在推理和学习方面突飞猛进。这种类型的测试打开了大门 新的实际应用从自动化任务到无需人工干预即可解决复杂问题。
我是一名技术爱好者,已将自己的“极客”兴趣变成了职业。出于纯粹的好奇心,我花了 10 多年的时间使用尖端技术并修改各种程序。现在我专攻计算机技术和视频游戏。这是因为 5 年多来,我一直在为各种技术和视频游戏网站撰写文章,旨在以每个人都能理解的语言为您提供所需的信息。
如果您有任何疑问,我的知识范围涵盖与 Windows 操作系统以及手机 Android 相关的所有内容。我对您的承诺是,我总是愿意花几分钟帮助您解决在这个互联网世界中可能遇到的任何问题。