Claude Sonnet 4.5:編碼、代理和電腦使用的飛躍

最後更新: 02/10/2025

  • 它在 OSWorld 中的表現為 61,4%,並在 SWE-bench Verified 中領先
  • 處理複雜任務超過 30 小時,並產生多達 64.000 個代幣
  • 更新 Claude Code 和新的 Claude Agent SDK 代理
  • 增強安全性(ASL-3)且價格相同:每百萬代幣 3/15 美元

Claude Sonnet 4.5 模型影像

Anthropic 發布了 Claude Sonnet 4.5,這是一款專注於程式設計、代理程式和電腦控制的升級版,旨在鞏固其在專業環境中的平台地位。在與高水平競爭對手的競爭中,該公司將此次發布描述為 更精細、更實用的工程任務模型 至今

新版本以 Sonnet 家族的優秀成果為基礎,該家族在先前的迭代中已經改進了推理和編碼能力。在此基礎上,4.5 旨在透過以下方面的改進來擴展其實際應用範圍: 注意力、工具使用和生產力的持久性,在安全和協調方面保持審慎的策略。

關鍵功能和效能改進

克勞德·十四行詩 4.5 的通用圖像

據 Anthropic 稱, Claude Sonnet 4.5 能夠在複雜任務上保持專注超過 30 小時。 多步驟,有利於需要上下文連續性的長期專案。它還支援最多 單一回應中有 64.000 個令牌,並提供控制來調整響應前的“思考時間”,根據需要平衡速度和細節。

獨家內容 - 點擊這裡  YouTube 加強了針對大量生產和人工智慧影片的政策

在實際的電腦操作過程中, 該公司在 OSWorld 中的得分為 61,4%,較其前身在同一測試中的 42,2% 有顯著提升。在實際場景中,該模型可以 瀏覽網頁、填寫電子表格並執行操作 在 Chrome 擴充功能的桌面應用程式中,減少持續的使用者監控。

的土地 程式設計集中了大部分改進在 SWE-bench Verified 評估中,重點在於應用於實際項目的編碼, Sonnet 4.5 以 77,2% 的收視率領先 (在並行計算下增加數量的配置)。 Anthropic 建議模型涵蓋整個開發週期: 大型程式碼庫的規劃、實施、重構與維護.

除了純粹的發展之外, 人類學確定了需要長時間流動和步驟協調的用途。從網路安全和金融,到辦公效率以及利用內部和外部數據進行研究,在這些情況下,希望能夠實現更穩定的代理,能夠維持長期工作而不失去一致性。

開發者工具與生態系統

克勞德代碼

此次發布會同時 Claude Code 的最新動態: 檢查點 保存進度並返回先前的狀態,例如 版本歷史,一個 改進的終端介面, Visual Studio Code 的原生擴充 並透過 API 改進上下文和記憶體編輯以運行更長的任務。

獨家內容 - 點擊這裡  人類學與人工智慧推薦飲用漂白劑的案例:當模型作弊時

Anthropic 還首播了 Claude 代理 SDK, 它複製了該公司用於建立自己的代理商的基礎設施該套件提供了用於長期記憶、權限系統和子代理協調的工具,有助於創建自動化解決方案,以便與以下工具合作實現共同目標並確保連接: WireGuard.

作為補充, 該公司暫時啟用“與克勞德一起想像”,這個演示讓我們觀察模型 即時生成軟體 無預定義代碼。此預覽版僅在 Max 用戶限時開放,展示了該模型在互動式創作方面的潛力。

安全性、一致性和彈性

Anthropic 的保護等級包括 Sonnet 4.5 人工智慧安全等級 3(ASL-3), 採用經過專門訓練的過濾器來偵測危險物質,尤其是與CBRN風險相關的物質。該公司聲稱已經減少了 誤報率高達十倍 與這些分類器的初始版本相比, 若發生安全鎖定,仍可繼續與 Sonnet 4 對話.

同時,公司確保 該模型減少了諸如奉承或欺騙性回應等不良行為,並加強了對試圖 及時注射這些措施表明 在企業環境中更可靠,其中自動化操作的執行需要控制和可追溯性。

獨家內容 - 點擊這裡  Gemini AI 現在可以像 Shazam 一樣從你的手機中找到歌曲

可用性、平台和價格

圖片來源:Claude Sonnet 4.5

Claude Sonnet 4.5 可在 Claude.ai 獲取 (網頁、iOS 和 Android) 以及透過 Claude 開發者平台為開發者提供的並與 Amazon Bedrock 和 Google Cloud Vertex AI 等服務整合。免費套餐的會話限制每五小時重置一次,並可根據需要調整訊息數量。價格不變。:每百萬輸入代幣 3 美元,每百萬輸出代幣 15 美元.

在新的存取功能中, Claude 的 Chrome 擴充功能正在向 Max 用戶推出。 之前已在候補名單上註冊。儘管基準測試表明與先前的迭代相比有了顯著的改進,但 Anthropic 指出,實際效能取決於用例和為每個任務配置的推理預算。

透過編碼技術的進步、代理人更大的自主權以及對安全性的更嚴格關注, Claude Sonnet 4.5 被定位為一個可靠的選擇 對於需要在長期流程中保持連續性和控制的技術團隊來說, 保持穩定的成本並與 Anthropic 已部署的生態系統相容.

LinkedIn調整人工智慧
相關文章:
LinkedIn 調整其人工智慧:隱私變化、區域以及如何停用它