- GPT-5 Codex 专门针对 GPT-5 的代理工程流程:规划、测试和修复,直到交付可验证的 PR。
- 集成 CLI、IDE 和 GitHub,具有从秒到小时的动态推理和短时间内的代币节省。
- 它改进了 SWE-bench Verified 等基准并提供安全控制,尽管它需要人工审查。
- 可在 Codex/ChatGPT 产品中访问;API 即将推出,具有 CometAPI 等多供应商选项和 Apidog 等工具。
在AI辅助开发工具的生态系统中, GPT-5-Codex 出现为 OpenAI 致力于将编码辅助功能提升到真正的代理级别,能够在实际流程中规划、执行、测试和完善代码更改。
这不仅仅是一个自动完成工具:它的目标是完成任务、融入 PR 并通过电池测试,其行为更接近技术同事,而非简单的对话助手。这就是新版本的基调:更可靠、更实用,专为日常工程设计。
GPT-5-Codex 是什么?它为什么存在?
GPT-5-Codex 本质上是 GPT-5 专业专注于软件工程和代理流它的训练和强化调优并非优先考虑一般的闲聊,而是专注于“构建→运行测试→修复→重复”的循环、明智的 PR 撰写和重构,以及遵循项目惯例。OpenAI 将其定位为 Codex 先前项目的遗产,但建立在 GPT-5 的推理和扩展基础之上,以更高的可靠性深入研究多文件任务和多步骤流程。
动机是务实的: 团队需要的不仅仅是建议一个孤立的片段价值主张在于从“我将为你编写一个功能”转变为“我将为你提供一个通过测试的功能”,采用一种理解 repo 结构、应用补丁、重新运行测试并提供符合公司标准的清晰 PR 的模型。

如何设计和训练:架构和优化
从架构上看,GPT-5-Codex 继承了 GPT‑5 (扩展属性、推理改进)并添加了针对工程的调整。训练侧重于真实场景:多文件重构、测试套件执行、调试会话以及基于人类偏好信号的审查,因此目标不仅是生成正确的文本,还要 最大限度地提高准确的编辑、批准的测试和有用的审查反馈.
“代理”层是关键。 该模型学习决定何时调用工具,如何将测试输出纳入其后续步骤以及如何在综合和验证之间建立闭环。它根据轨迹进行训练,在轨迹中发出动作(例如,“运行测试 X”),观察结果并调节其后续生成,从而实现长序列的一致行为。
执行驱动训练和 RLHF 应用于代码
与一般的聊天设置不同, 强化包括实际代码执行和自动验证反馈循环源自测试结果和人类偏好,用于处理多步骤序列(创建 PR、执行套件、修复 Bug)中时间信用的分配。上下文会根据代码库规模进行扩展,以了解代码库中的依赖关系、命名约定和交叉影响。
这种采用“仪器化环境”的方法 允许模型内化工程实践 (例如,在大型重构中保持行为、编写清晰的差异或遵循标准 PR 礼仪),这可以减少融入已经使用 CI 和正式审查的团队时的摩擦。
工具的使用以及与环境的协调
从历史上看,Codex 将其输出与可以打开文件或运行测试的轻量级运行时结合在一起。在 GPT-5-Codex 中, 这种协调得到了加强:它学习何时以及如何调用工具并“读回”结果。缩小语言水平与程序验证之间的差距。在实践中,这意味着更少的盲目尝试和更多基于测试系统反馈的迭代。
你可以做什么:能力和适应性的“思考时间”
其中一个差异投注是 可变推理持续时间:琐碎的请求可以快速且低成本地得到响应,而复杂的重构则可以为构建变更、修补和重新测试打开一个漫长的“思考”窗口。在短轮次中,它消耗的代币通常也比 GPT-5 少得多, 代币节省高达 93,7% 在小规模的互动中,这有助于控制成本。
关于功能, 使用完整的脚手架(CI、测试、文档)启动项目,自主运行测试修复周期,在保持行为的同时解决多文件重构,编写具有良好呈现的变化的 PR 描述,并通过依赖图和 API 边界比通用聊天模型更稳健地推理。
当你在云端工作时, 支持视觉输入和输出:您可以接收屏幕截图并将工件(例如,生成的 UI 的屏幕截图)附加到任务中,这对于前端调试和可视化 QA 非常有用。此可视化代码链接对于验证设计或确认图形回归问题是否已修复尤其有用。

工作流集成:CLI、IDE 和 GitHub/Cloud
Codex 不会停留在浏览器中。 Codex CLI 已围绕代理流程重新设计,包含图片附件、任务列表、外部工具支持(网页搜索、MCP)、改进的终端界面以及简化的三级权限模式(只读、自动和完全访问)。所有这些设计都是为了使终端与客服人员的协作更加可靠。
在编辑器中, IDE 的 Codex 扩展将代理集成到 VS Code(和分支)中 预览本地差异,在保留上下文的情况下在云端和本地之间移动任务,并在视图中调用当前文件模型。在编辑器中查看和操作结果可以减少上下文切换并加快迭代速度。
在云端和 GitHub 上, 任务可以自动审查 PR、提升临时容器并附加日志和屏幕截图 提交到审核线程。改进的基础设施通过容器缓存显著降低了延迟, 时间减少约 90% 在一些重复性的任务中。
局限性以及表现更好或更差的领域
专业化有其代价: 在与代码无关的评估中,GPT-5-Codex 的表现可能略低于 GPT-5 Generalist并且它的代理行为与测试集的质量相结合:在覆盖率较低的存储库中,自动验证失败,人工监督再次变得不可或缺。
脱颖而出 复杂的重构、大型项目的搭建、编写和修改测试、PR 预期跟踪和多文件 bug 诊断。它不太适用于需要工作区中未包含的专有知识,或无需人工审核(对安全至关重要)的“零错误”环境,在这些环境中谨慎至关重要。
性能:基准和报告结果
在以代理为中心的测试(例如 SWE‑bench Verified)中, OpenAI 报告称 GPT-5-Codex 超越 GPT-5 在 500 个实际软件工程任务的成功率方面有所提升。其价值部分在于评估涵盖了更全面的案例(不再是 477 个,而是 500 个可能的任务),以及从大型代码库中提取的重构指标的显著提升。某些高冗余度指标取得了显著的飞跃,尽管 注意到可重复性和测试配置的细微差别.
批判性阅读仍然是强制性的: 子集差异、冗长程度和成本 可能会扭曲比较。尽管如此,独立评论的模式表明,代理行为已经得到改善,并且重构的优势并不总是能转化为所有任务的原始准确率的提高。
今日访问:GPT-5-Codex 的使用场景
OpenAI 已将 GPT-5-Codex 集成到 Codex 产品体验中:CLI、IDE 扩展、云和 GitHub 上的评论线程,以及 iOS 版 ChatGPT 应用中的功能。同时,该公司还表示 Plus、Pro、Business、Edu 和 Enterprise 订阅者 在 Codex/ChatGPT 生态系统内,具有 API 访问权限 宣布“即将推出” 超越原生 Codex 流程。
对于那些通过 API 启动的用户, 调用遵循通常的 SDK 模式Python 中的一个基本示例如下所示:
import openai
openai.api_key = "tu-api-key"
resp = openai.ChatCompletion.create(
model="gpt-5-codex",
messages=[{"role":"user","content":"Genera una función en Python para ordenar una lista."}]
)
print(resp.choices[0].message.content)
还提到了可通过 OpenAI API 兼容提供商获得,并且 定价遵循代币方案 根据计划,结合具体的业务情况。例如 蜜蜂狗 它们有助于模拟响应并在没有实际消费的情况下测试极端情况,从而促进文档(OpenAPI)和客户端生成。
通过 GitHub Copilot 运行 VS Code:公开预览版
在 Visual Studio 代码中, 通过 Copilot 进行访问 公开预览版(适用版本和计划要求)。管理员在组织级别(商业/企业)启用此功能,专业用户可以在 Copilot Chat 中选择此功能。 副驾驶代理模式(询问、编辑、代理) 他们受益于模型的持久性和自主性,逐步调试脚本并提出解决方案。
应该记住的是 实施逐步发布,因此并非所有用户都能同时看到它。此外,Apidog 还提供 VS Code 内部的 API 测试,有助于确保强大的集成,而无需承担生产成本或延迟。
安全、控制和保障措施
OpenAI 强调多个层次: 抵制注射和预防危险行为的安全培训以及产品控制,例如隔离环境中的默认执行、可配置的网络访问、命令批准模式、终端日志记录以及可追溯性引用。当代理可以安装依赖项或执行进程时,这些屏障是合乎逻辑的。
还有, 需要人工监督的已知限制:它无法取代评审员,基准测试有细则,而且 LLM 可能会产生误导(例如虚构的 URL、误解的依赖项)。在将变更提交到生产环境之前,通过测试和人工审核进行验证仍然是不可或缺的。
动态推理时间:从几秒到七小时
其中最引人注目的言论是 实时调整计算工作量的能力:从几秒钟内响应小型请求,到花费数小时处理复杂且脆弱的任务,重试测试并纠正错误。与先验决策的路由器不同,模型本身 几分钟后可以重新分配资源 如果它检测到任务需要它。
这种方法使得 Codex 在长期和不稳定的工作中成为更有效的合作者 (主要重构、多服务集成、扩展调试),这些以前是传统自动完成功能无法实现的。
CometAPI 和多供应商访问
对于想要 避免供应商锁定并快速行动CometAPI 为 500 多个模型(OpenAI GPT、Gemini、Claude、Midjourney、Suno 等)提供单一接口,统一身份验证、格式化和响应处理。该平台 承诺纳入 GPT-5-Codex 在正式发布的同时,除了展示 GPT‑5、GPT‑5 Nano 和 GPT‑5 Mini 之外,还展出了 兒童遊樂區 和 API 指南来加快测试速度。
这种方法允许 无需重新进行集成即可进行迭代 每当有新模型出现时,请控制成本并保持独立性。同时,我们鼓励您在 Playground 中探索其他模型,并查看相关文档,以便有序采用。
更多产品更新:修补程序、前端和 CLI
OpenAI 表示 GPT‑5‑Codex 经过专门训练,可以审查代码并检测关键错误。扫描代码库、运行代码和测试,以及验证修复。在与热门代码库和人类专家的评估中,错误或不相关的评论比例较低,这有助于集中注意力。
在前端, 据报道性能可靠 以及人类对移动网站创建偏好的改进。在桌面端,它可以生成有吸引力的应用程序。 Codex CLI 已重建 对于代理流程,带有用于设计决策的图像附件、任务列表以及改进的工具调用和差异格式;加上集成的网络搜索和 MCP,用于安全地连接到外部数据/工具。
可及性、计划和逐步部署
模型是 部署在终端、IDE、GitHub 和 ChatGPT 中 适用于 Plus/Pro/Business/Edu/Enterprise 用户,API 计划稍后推出。各套餐未提供详细的限制差异,访问权限 可能会以交错的方式出现,这在预览版和波次发布版中很常见。
至于成本, 价格遵循代币计划 以及使用水平;对于企业来说,讨论通常围绕商业/专业版以及会话和负载评估展开。考虑到“思考时间”这个变量,最好定义 执法政策和限制 清楚以避免意外。
为了进行测试和验证, Apidog 非常适合 通过模拟响应、导入 OpenAPI 规范和促进客户端生成;OpenRouter 等供应商为成本或冗余的替代路线提供 API 支持。
从整体来看, GPT-5 Codex 巩固了从“自动完成”到“交付功能”的转变一个能够根据任务需求适度思考的代理,集成到日常工具中,具有分层安全机制,并明确关注可验证的工程结果。对于各种规模的团队来说,这都是一个在不牺牲控制力和质量的情况下提升速度的真正机会。
专门研究技术和互联网问题的编辑,在不同数字媒体领域拥有十多年的经验。我曾在电子商务、通讯、在线营销和广告公司担任编辑和内容创作者。我还在经济、金融和其他领域的网站上撰写过文章。我的工作也是我的热情所在。现在,通过我的文章 Tecnobits,我尝试探索技术世界每天为我们提供的所有新闻和新机会,以改善我们的生活。
