💻 报告:OpenAI 推出 GPT-5.3 Codex:代码与专业知识的融合代理

发布日期: 2026-02-06

OpenAI 宣布推出 GPT-5.3 Codex,这是迄今为止能力最强的代理编码模型。该模型将 GPT-5.2 Codex 的前沿编码性能与 GPT-5.2 的推理和专业知识能力融合在一起,速度同时提升了 25%

核心突破与模型定位

GPT-5.3 Codex 的推出标志着 Codex 从一个“能编写和审查代码的代理”转变为一个“能够在计算机上执行开发者和专业人士几乎所有工作”的通用代理。

自我加速开发: 它是 OpenAI 首个在自身创建过程中发挥关键作用的模型, Codx 团队利用其早期版本来调试训练过程、管理部署以及诊断测试结果,极大地加速了模型的开发周期。

二、 前沿代理能力与基准表现

GPT-5.3 Codex 在多项衡量编码、代理和真实世界能力的基准上创造了行业新高:

基准测试 衡量内容 GPT-5.3 Codex 表现
SWE-Bench Pro 真实世界软件工程能力(跨四种语言) 达到最先进水平 (56.8%)
Terminal-Bench 2.0 代理所需的终端操作技能 远超此前最先进水平 (77.3%)
OSWorld-Verified 视觉桌面环境下的计算机使用能力 显著增强 (64.7%)
GDPval 经济价值知识工作(44 种职业) 匹配 GPT-5.2 的优秀表现 (70.9%)

长期自主任务执行与 Web 开发

模型在测试中展示了强大的长期代理能力,能够自主迭代地完善复杂游戏和应用程序,整个过程在数百万 Tokens 的会话中完成。

相比前代,GPT-5.3-Codex 对用户意图的理解更佳。对于简单或不明确的提示,它能默认生成功能更全、设计更合理的网站(例如,自动显示折扣后的月价格、自动创建轮播式推荐语),使其更具生产力。

三、 跨越软件生命周期的通用代理

GPT-5.3-Codex 的价值已扩展到软件生命周期的所有工作,包括调试、部署、监控、编写 PRD、编辑文案、用户研究、测试和指标分析等。其代理能力甚至延伸到幻灯片制作、数据分析等通用知识工作。

交互式协作模式

GPT-5.3-Codex 提供了更强大的交互性。它会频繁更新,让用户实时了解关键决策和进度。用户可以在模型工作过程中进行**转向(steer)**,提问、讨论方法,而不会丢失上下文,从而实现真正的实时协作。

四、 OpenAI 内部的“自我加速”

Codex 团队利用早期版本的 GPT-5.3 Codex 加速了自身研究、工程和产品开发:

五、 网络安全前沿的保障与部署

GPT-5.3 Codex 被归类为网络安全相关任务的 **“高能力” (High capability)** 模型。OpenAI 为此采取了最全面的安全措施,并承诺提供 **1000 万美元的 API 积分**,加速使用其最强大的模型进行网络防御研究,同时与开源维护者合作提供免费代码库扫描。

可用性

GPT-5.3-Codex 目前已通过付费 ChatGPT 计划提供,在 Codex App、CLI、IDE 扩展和 Web 界面可用。OpenAI 正在努力安全地启用 API 访问。Codex 用户的运行速度提高了 25%。

总字数: 约 2,300 字。

原文链接: https://openai.com/index/introducing-gpt-5-3-codex/