- GPT-5 Codex 專門針對 GPT-5 的代理工程流程:規劃、測試和修復,直到交付可驗證的 PR。
- 整合 CLI、IDE 和 GitHub,具有從秒到小時的動態推理和短時間內的代幣節省。
- 它改進了 SWE-bench Verified 等基準並提供安全控制,儘管它需要人工審查。
- 可在 Codex/ChatGPT 產品中存取;API 即將推出,具有 CometAPI 等多供應商選項和 Apidog 等工具。
在AI輔助開發工具的生態系中, GPT-5-Codex 出現為 OpenAI 致力於將編碼輔助功能提升到真正的代理級別,能夠在實際流程中規劃、執行、測試和完善程式碼變更。
這不僅僅是一個自動完成工具:它的目標是完成任務、融入 PR 並通過電池測試,其行為更接近技術同事,而非簡單的對話助手。這就是新版本的基調:更可靠、更實用,專為日常工程設計。
GPT-5-Codex 是什麼?為什麼它會存在?
GPT-5-Codex 本質上是 GPT-5 專業專注於軟體工程和代理流它的訓練和強化調優並非優先考慮一般的閒聊,而是專注於「構建→運行測試→修復→重複」的循環、明智的 PR 撰寫和重構,以及遵循項目慣例。 OpenAI 將其定位為 Codex 先前專案的遺產,但建立在 GPT-5 的推理和擴展基礎之上,以更高的可靠性深入研究多文件任務和多步驟流程。
動機是務實的: 團隊需要的不僅僅是建議一個孤立的片段價值主張在於從“我將為你編寫一個功能”轉變為“我將為你提供一個通過測試的功能”,採用一種理解 repo 結構、應用補丁、重新運行測試並提供符合公司標準的清晰 PR 的模型。

如何設計和訓練:架構與最佳化
從架構上看,GPT-5-Codex 繼承了 GPT‑5 (擴展屬性、推理改進)並添加了針對工程的調整。訓練側重於真實場景:多文件重構、測試套件執行、調試會話以及基於人類偏好信號的審查,因此目標不僅是生成正確的文本,還要 最大限度地提高準確的編輯、批准的測試和有用的審查回饋.
「代理」層是關鍵。 此模型學習決定何時調用工具,如何將測試輸出納入其後續步驟以及如何在綜合和驗證之間建立閉環。它根據軌跡進行訓練,在軌跡中發出動作(例如,「運行測試 X」),觀察結果並調節其後續生成,從而實現長序列的一致行為。
執行驅動訓練和 RLHF 應用於程式碼
與一般的聊天設定不同, 強化包括實際程式碼執行和自動驗證回饋循環源自於測試結果和人類偏好,用於處理多步驟序列(建立 PR、執行套件、修復 Bug)中時間信用的分配。上下文會根據程式碼庫規模進行擴展,以了解程式碼庫中的依賴關係、命名約定和交叉影響。
這種採用「儀器化環境」的方法 允許模型內化工程實踐 (例如,在大型重構中保持行為、編寫清晰的差異或遵循標準 PR 禮儀),這可以減少融入已經使用 CI 和正式審查的團隊時的摩擦。
工具的使用以及與環境的協調
從歷史上看,Codex 將其輸出與可以打開檔案或運行測試的輕量級運行時結合在一起。在 GPT-5-Codex 中, 這種協調得到了加強:它學習何時以及如何調用工具並「讀回」結果。縮小語言程度與程式驗證之間的差距。在實踐中,這意味著更少的盲目嘗試和更多基於測試系統回饋的迭代。
你可以做什麼:能力和適應性的“思考時間”
其中一個差異投注是 可變推理持續時間:瑣碎的請求可以快速且低成本地回應,而複雜的重構則可以為建立變更、修補和重新測試打開一個漫長的「思考」視窗。在短輪次中,它消耗的代幣通常也比 GPT-5 少得多, 代幣節省高達 93,7% 在小規模的互動中,這有助於控製成本。
關於功能, 使用完整的腳手架(CI、測試、文件)啟動項目,自主運行測試修復週期,在保持行為的同時解決多文件重構,編寫具有良好呈現的變化的 PR 描述,並通過依賴圖和 API 邊界比通用聊天模型更穩健地推理。
當你在雲端工作時, 支援視覺輸入和輸出:您可以接收螢幕截圖並將工件(例如,生成的 UI 的螢幕截圖)附加到任務中,這對於前端偵錯和視覺化 QA 非常有用。此視覺化程式碼連結對於驗證設計或確認圖形回歸問題是否已修復尤其有用。

工作流程整合:CLI、IDE 和 GitHub/Cloud
Codex 不會停留在瀏覽器。 Codex CLI 已圍繞代理流程重新設計,包含圖片附件、任務清單、外部工具支援(網頁搜尋、MCP)、改進的終端介面以及簡化的三級權限模式(唯讀、自動和完全存取)。所有這些設計都是為了使終端與客服人員的協作更加可靠。
在編輯器中, IDE 的 Codex 擴充功能將代理程式整合到 VS Code(和分支)中 預覽本地差異,在保留上下文的情況下在雲端和本地之間移動任務,並在視圖中呼叫當前檔案模型。在編輯器中檢視和操作結果可以減少上下文切換並加快迭代速度。
在雲端和 GitHub 上, 任務可以自動審查 PR、提升臨時容器並附加日誌和螢幕截圖 提交到審核線程。改進的基礎設施透過容器快取顯著降低了延遲, 時間減少約 90% 在一些重複性的任務中。
局限性以及表現更好或更差的領域
專業化有其代價: 在與代碼無關的評估中,GPT-5-Codex 的表現可能略低於 GPT-5 Generalist並且它的代理行為與測試集的品質相結合:在覆蓋率較低的儲存庫中,自動驗證失敗,人工監督再次變得不可或缺。
脫穎而出 複雜的重構、大型專案的建造、編寫和修改測試、PR 預期追蹤和多文件 bug 診斷。它不太適用於需要工作區中未包含的專有知識,或無需人工審核(對安全至關重要)的「零錯誤」環境,在這些環境中謹慎至關重要。
性能:基準和報告結果
在以代理為中心的測試(例如 SWE‑bench Verified)中, OpenAI 報告稱 GPT-5-Codex 超越 GPT-5 在 500 個實際軟體工程任務的成功率方面有所提升。其價值部分在於評估涵蓋了更全面的案例(不再是 477 個,而是 500 個可能的任務),以及從大型程式碼庫中提取的重構指標的顯著提升。某些高冗餘度指標取得了顯著的飛躍,儘管 注意到可重複性和測試配置的細微差別.
批判性閱讀仍然是強制性的: 子集差異、冗長程度和成本 可能會扭曲比較。儘管如此,獨立評論的模式表明,代理行為已經得到改善,並且重構的優勢並不總是能轉化為所有任務的原始準確率的提高。
今日造訪:GPT-5-Codex 的使用場景
OpenAI 已將 GPT-5-Codex 整合到 Codex 產品體驗中:CLI、IDE 擴充功能、雲端和 GitHub 上的評論線程,以及 iOS 版 ChatGPT 應用程式中的功能。同時,該公司也表示 Plus、Pro、Business、Edu 和 Enterprise 訂閱者 在 Codex/ChatGPT 生態系統內,具有 API 存取權限 宣布“即將推出” 超越原生 Codex 流程。
對於那些透過 API 啟動的用戶, 呼叫遵循通常的 SDK 模式Python 中的一個基本範例如下所示:
import openai
openai.api_key = "tu-api-key"
resp = openai.ChatCompletion.create(
model="gpt-5-codex",
messages=[{"role":"user","content":"Genera una función en Python para ordenar una lista."}]
)
print(resp.choices[0].message.content)
也提到了可透過 OpenAI API 相容提供者取得,並且 定價遵循代幣方案 根據計劃,結合具體的業務情況。例如 阿皮狗 它們有助於模擬回應並在沒有實際消費的情況下測試極端情況,從而促進文件(OpenAPI)和客戶端生成。
透過 GitHub Copilot 運行 VS Code:公開預覽版
在 Visual Studio Code 中, 透過 Copilot 進行訪問 公開預覽版(適用版本和計劃要求)。管理員在組織層級(商業/企業)啟用此功能,專業使用者可以在 Copilot Chat 中選擇此功能。 副駕駛代理模式(詢問、編輯、代理) 他們受益於模型的持久性和自主性,逐步調試腳本並提出解決方案。
應該記住的是 實施逐步發布,因此並非所有用戶都能同時看到它。此外,Apidog 還提供 VS Code 內部的 API 測試,有助於確保強大的集成,而無需承擔生產成本或延遲。
安全、控制和保障措施
OpenAI 強調多層次: 抵制注射和預防危險行為的安全培訓以及產品控制,例如隔離環境中的預設執行、可設定的網路存取、命令批准模式、終端日誌記錄以及可追溯性引用。當代理程式可以安裝依賴項或執行進程時,這些屏障是合乎邏輯的。
還有, 需要人工監督的已知限制:它無法取代評審員,基準測試有細則,而且 LLM 可能會產生誤導(例如虛構的 URL、誤解的依賴項)。在將變更提交到生產環境之前,通過測試和人工審核進行驗證仍然是不可或缺的。
動態推理時間:從幾秒到七小時
其中最引人注目的言論是 即時調整運算工作量的能力:從幾秒鐘內回應小型請求,到花費數小時處理複雜且脆弱的任務,重試測試並糾正錯誤。與先驗決策的路由器不同,模型本身 幾分鐘後可以重新分配資源 如果它偵測到任務需要它。
這種方法使得 Codex 在長期和不穩定的工作中成為更有效的合作者 (主要重構、多服務整合、擴展調試),這些以前是傳統自動完成功能無法實現的。
CometAPI 和多供應商訪問
對於想要 避免供應商鎖定並快速行動CometAPI 為 500 多個模型(OpenAI GPT、Gemini、Claude、Midjourney、Suno 等)提供單一接口,統一身份驗證、格式化和響應處理。該平台 承諾納入 GPT-5-Codex 在正式發表的同時,除了展示 GPT‑5、GPT‑5 Nano 和 GPT‑5 Mini 之外,也展出了 游乐场 和 API 指南來加快測試速度。
這種方法允許 無需重新進行整合即可進行迭代 每當有新模型出現時,請控製成本並保持獨立性。同時,我們鼓勵您在 Playground 中探索其他模型,並查看相關文檔,以便有序採用。
更多產品更新:修補程式、前端和 CLI
OpenAI 表示 GPT‑5‑Codex 經過專門訓練,可以審查程式碼並偵測關鍵錯誤。掃描程式碼庫、執行程式碼和測試,以及驗證修復。在與熱門程式碼庫和人類專家的評估中,錯誤或不相關的評論比例較低,這有助於集中註意力。
在前端, 據報道性能可靠 以及人類對行動網站創建偏好的改進。在桌面端,它可以產生有吸引力的應用程式。 Codex CLI 已重建 對於代理流程,具有用於設計決策的圖像附件、任務清單以及改進的工具呼叫和差異格式;加上整合的網路搜尋和 MCP,用於安全地連接到外部資料/工具。
可存取性、計劃和逐步部署
模型是 部署在終端機、IDE、GitHub 和 ChatGPT 中 適用於 Plus/Pro/Business/Edu/Enterprise 用戶,API 計畫稍後推出。各套餐未提供詳細的限制差異,存取權限 可能會以交錯的方式出現,這在預覽版和波次發布版中很常見。
至於成本, 價格遵循代幣計劃 以及使用水準;對於企業來說,討論通常圍繞商業/專業版以及會話和負載評估展開。考慮到「思考時間」這個變量,最好定義 執法政策與限制 清楚以避免意外。
為了進行測試和驗證, Apidog 非常適合 透過模擬回應、匯入 OpenAPI 規範和促進客戶端產生;OpenRouter 等供應商為成本或冗餘的替代路線提供 API 支援。
從整體來看, GPT-5 Codex 鞏固了從「自動完成」到「交付功能」的轉變一個能夠根據任務需求適度思考的代理,整合到日常工具中,具有分層安全機制,並明確關注可驗證的工程結果。對於各種規模的團隊來說,這都是一個在不犧牲控制力和品質的情況下提升速度的真正機會。
專門研究技術和互聯網問題的編輯,在不同數位媒體領域擁有十多年的經驗。我曾在電子商務、通訊、線上行銷和廣告公司擔任編輯和內容創作者。我還在經濟、金融和其他領域的網站上撰寫過文章。我的工作也是我的熱情所在。現在,透過我的文章 Tecnobits,我嘗試探索科技世界每天為我們提供的所有新聞和新機會,以改善我們的生活。
