OpenAI 官方博客:《Introducing GPT-5.4》
链接:https://openai.com/index/introducing-gpt-5-4/
一句话结论:GPT-5.4 不是单点能力升级,而是把“推理 + 编码 + 工具 + 计算机操作”整合成了更稳定、低延迟、低 token 成本的生产级模型,目标非常明确:让 AI 代理真正完成复杂专业工作,而不是只会回答问题。
OpenAI 在这次发布里给了两个信号。第一个信号是产品层:GPT-5.4 同时进入 ChatGPT(Thinking 与 Pro)、API 和 Codex,这意味着它不是实验性型号,而是主力型号。第二个信号是能力层:官方把 GPT-5.4 定义为“最有能力、最有效率的 frontier model for professional work”,这个表述本身就把定位从“聊天智能”转向“职业级工作智能”。
如果你只关心是否值得迁移,答案很直接:值得。原因不是单榜单提升,而是它在多条关键链路上同时改进——知识工作产出质量、网页/桌面操作能力、工具生态调度能力、长上下文任务连续性、以及单位任务 token 消耗。现实工作里真正决定体验的,恰恰是这些“组合指标”,不是某一个学术分数。
| 评测维度 | GPT-5.4 | GPT-5.3-Codex | GPT-5.2 | 解读 |
|---|---|---|---|---|
| GDPval(胜或平) | 83.0% | 70.9% | 70.9% | 知识工作生成能力出现明显代差,面向职业任务更稳。 |
| SWE-Bench Pro (Public) | 57.7% | 56.8% | 55.6% | 编码能力继续提升,但重点是“同等或更高质量 + 更低延迟”。 |
| OSWorld-Verified | 75.0% | 74.0% | 47.3% | 计算机操作能力大幅拉开与 5.2 的差距,且超人类基线 72.4%。 |
| Toolathlon | 54.6% | 51.9% | 46.3% | 多工具编排更强,复杂工作流成功率提升。 |
| BrowseComp | 82.7% | 77.3% | 65.8% | 深度检索和长链网页研究更可靠。 |
官方对 GPT-5.4 的叙事重点之一是 Knowledge Work。GDPval 的 83.0%(胜或平)可以理解为:在明确任务定义下,模型产出的质量已经接近或超过大量行业从业者的结果区间。这不是“会写文案”那种泛泛能力,而是覆盖销售演示、财务表格、排班方案、制造流程图、短视频等具有明确交付要求的任务。
更值得关注的是两个内部场景数据:其一,类投行初级分析师的表格建模任务,GPT-5.4 均分 87.3%,相比 GPT-5.2 的 68.4% 提升非常明显;其二,在演示文稿质量盲评中,人类评审 68.0% 的情况下偏好 GPT-5.4 结果,理由集中在审美表现、视觉变化度和图像生成协同。翻译成业务语言就是:不是只会“写出来”,而是更像“交得出去”。
此外,OpenAI 提到在用户标注为“事实错误”的脱敏提示集上,GPT-5.4 的单条陈述错误概率较 GPT-5.2 下降 33%,整段回答含错概率下降 18%。这组数据对企业使用特别关键,因为很多组织并不怕模型“答慢一点”,怕的是“答得像真的但其实错了”。错误率下降,意味着审核成本和返工成本都能实打实降低。
这次最硬核的变化,是 GPT-5.4 成为 OpenAI 首个具备原生、通用计算机操作能力(computer-use)的通用模型。它不只是在 API 里调用函数,而是可以在截图观察基础上做鼠标键盘动作,也能借助 Playwright 这类库编写自动化流程,覆盖网页和软件系统中的多步骤任务。
OSWorld-Verified 达到 75.0%,不仅比 GPT-5.2 的 47.3% 高出一大截,也超过了文中给出的 72.4% 人类表现。WebArena-Verified 与 Online-Mind2Web 的成绩同样说明一件事:模型已经不再只擅长“结构化 API 场景”,对真实、混乱、页面多变的环境也有更强泛化能力。
视觉层面也同步加强。GPT-5.4 在 MMMU-Pro 上达到 81.2%,在文档解析 OmniDocBench 上把误差从 0.140 降到 0.109。更关键的是新增了原图级别输入细节(最高支持 10.24M 像素或 6000 像素边长上限),这对高分辨率界面定位、复杂表格识别、细小控件点击等工作极其重要。说白了,之前很多“差一点点就能自动化”的任务,往往就卡在图像细节不够,现在这一堵墙被明显推开了。
GPT-5.4 在 SWE-Bench Pro 上与 GPT-5.3-Codex 基本持平略优,但 OpenAI 明确强调它在不同推理强度下具有更低延迟。这个方向我非常认同:工程团队真正关心的是“完整迭代回路耗时”,而不是单步响应的漂亮数字。你修 Bug、跑测试、看结果、再修改,来回十几轮,延迟差一点,体感就是天壤之别。
Codex 的 /fast 模式给到最高 1.5x token 速度提升,而且宣称“同模型同智能,只是更快”。如果这一点在实际场景持续稳定,那它的价值非常现实:前端调样式、后端修接口、脚本调参数这种“高频短迭代”工作流会显著顺滑。发布里还展示了 Playwright (Interactive) 实验技能,让模型一边构建应用一边可视化调试,这是典型的“把 agent 拉进真实开发闭环”的尝试。
很多团队在做 Agent 平台时踩过同一个坑:工具一多,提示词就膨胀,模型每次都背着一大堆用不到的工具定义,成本高、速度慢、上下文污染严重。GPT-5.4 引入 tool search,本质是把“工具全集预装”改成“按需检索加载”。
这件事看似工程细节,实际上很可能决定了大规模落地是否可行。因为企业系统里常常不是十个工具,而是几百个连接器与内部能力点。tool search 让模型先拿轻量工具目录,再在需要时拉取具体定义,能同时改善 token 成本、响应延迟和缓存命中。对生产环境来说,这个收益经常比“多 2 分 benchmark”更值钱。
我的判断很明确:值得,而且是必须重视。GPT-5.4 的意义不在于“又一个更强模型”,而在于它把过去分散在不同型号、不同能力栈里的优势拼成了更统一的生产系统。你会看到更少的对话拉扯、更少的工具错配、更少的无效 token 消耗,以及更高的任务闭环成功率。
如果你的团队还停留在“把大模型当高级搜索框”的阶段,那 GPT-5.4 的价值可能只体现 20%。但如果你已经在做 Agent 工作流、自动化编排、跨应用执行,它带来的提升会更像“代际体验差”。一句话:这不是参数党狂欢,这是工程效率升级。