Claude Sonnet 4.5:编码、代理和计算机使用的飞跃

最后更新: 02/10/2025

  • 它在 OSWorld 中的表现为 61,4%,并在 SWE-bench Verified 中领先
  • 处理复杂任务超过 30 小时,并生成多达 64.000 个代币
  • 更新 Claude Code 和新的 Claude Agent SDK 代理
  • 增强安全性(ASL-3)且价格相同:每百万代币 3/15 美元

Claude Sonnet 4.5 模型图像

Anthropic 发布了 Claude Sonnet 4.5,这是一款专注于编程、代理和计算机控制的升级版,旨在巩固其在专业环境中的平台地位。在与高水平竞争对手的竞争中,该公司将此次发布描述为 更精细、更实用的工程任务模型 至今

新版本以 Sonnet 家族的优秀成果为基础,该家族在之前的迭代中已经改进了推理和编码能力。在此基础上,4.5 旨在通过以下方面的改进来扩展其实际应用范围: 注意力、工具使用和生产力的持久性,在安全和协调方面保持审慎的策略。

关键功能和性能改进

克劳德·十四行诗 4.5 的通用图像

据 Anthropic 称, Claude Sonnet 4.5 能够在复杂任务上保持专注超过 30 小时。 多步骤,有利于需要上下文连续性的长期项目。它还支持最多 单个响应中有 64.000 个令牌,并提供控件来调整响应前的“思考时间”,根据需要平衡速度和细节。

独家内容 - 点击这里  YouTube 加强了针对批量生产和人工智能视频的政策

在实际的电脑操作过程中, 该公司在 OSWorld 中的得分为 61,4%,较其前身在同一测试中的 42,2% 有显著提升。在实际场景中,该模型可以 浏览网页、填写电子表格并执行操作 在 Chrome 扩展的桌面应用程序中,减少持续的用户监控。

的土地 编程集中了大部分改进在 SWE-bench Verified 评估中,重点关注应用于实际项目的编码, Sonnet 4.5 以 77,2% 的收视率领先 (在并行计算下增加数量的配置)。Anthropic 建议该模型涵盖整个开发周期: 大型代码库的规划、实施、重构和维护.

除了纯粹的发展之外, 人类学确定了需要长时间流动和步骤协调的用途。从网络安全和金融,到办公效率以及利用内外部数据进行研究,在这些情况下,希望能够实现更稳定的代理,能够维持长期工作而不失去一致性。

开发者工具和生态系统

克劳德代码

此次发布会同时 Claude Code 的最新动态: 检查点 保存进度并返回之前的状态,例如 版本历史,一 改进的终端界面, Visual Studio Code 的原生扩展 并通过 API 改进上下文和内存编辑以运行更长的任务。

独家内容 - 点击这里  人类学与人工智能推荐饮用漂白剂的案例:当模型作弊时

Anthropic 还首映了 Claude 代理 SDK, 它复制了该公司用于构建自己的代理的基础设施该套件提供了用于长期记忆、权限系统和子代理协调的工具,有助于创建自动化解决方案,以便与以下工具合作实现共同目标并确保连接: WireGuard.

作为补充, 该公司暂时启用“与克劳德一起想象”,这个演示让我们观察模型 实时生成软件 无预定义代码。此预览版仅在 Max 用户限时开放,展示了该模型在交互式创作方面的潜力。

安全性、一致性和弹性

Anthropic 的保护级别包括 Sonnet 4.5 人工智能安全级别 3(ASL-3), 采用经过专门训练的过滤器来检测危险物质,尤其是与CBRN风险相关的物质。该公司声称已经减少了 误报率高达十倍 与这些分类器的初始版本相比, 如果发生安全锁定,仍可继续与 Sonnet 4 对话.

与此同时,公司确保 该模型减少了诸如奉承或欺骗性回应等不良行为,并加强了对试图 及时注射这些措施旨在 在企业环境中更可靠,其中自动化操作的执行需要控制和可追溯性。

独家内容 - 点击这里  Gemini AI 现在可以像 Shazam 一样从你的手机中查找歌曲

可用性、平台和价格

图片来源:Claude Sonnet 4.5

Claude Sonnet 4.5 可在 Claude.ai 获取 (网页、iOS 和 Android) 以及通过 Claude 开发者平台为开发者提供的并与 Amazon Bedrock 和 Google Cloud Vertex AI 等服务集成。免费套餐的会话限制每五小时重置一次,并可根据需要调整消息数量。价格保持不变。:每百万输入代币 3 美元,每百万输出代币 15 美元.

在新的访问功能中, Claude 的 Chrome 扩展程序正在向 Max 用户推出。 之前已在候补名单上注册。尽管基准测试表明与之前的迭代相比有了显著的改进,但 Anthropic 指出,实际性能取决于用例和为每个任务配置的推理预算。

通过编码技术的进步、代理人的更大自主权以及对安全性的更严格关注, Claude Sonnet 4.5 被定位为一个可靠的选择 对于需要在长期流程中保持连续性和控制力的技术团队来说, 保持稳定的成本并与 Anthropic 已部署的生态系统兼容.

LinkedIn调整人工智能
相关文章:
LinkedIn 调整其人工智能:隐私变化、区域以及如何禁用它