GPT-5.4 正式发布:相比 GPT-5.2 有何提升?企业级用户实测指南
2026年3月5日,OpenAI 正式发布 GPT-5.4。这是 OpenAI 继 GPT-5.3-Codex 之后推出的新一代通用推理模型,也是首个将顶尖编程能力、专业知识工作能力与原生计算机操作能力融为一体的模型。对于正在使用或考虑升级到 GPT-5.2 的用户而言,最关心的问题只有一个:GPT-5.4 相比 GPT-5.2 究竟提升了多少?这些提升在实际工作中是否感知得到?
本文将从实测角度,结合官方基准测试数据与行业反馈,对 GPT-5.4 的核心能力进行全面评估。
一、GPT-5.4 与 GPT-5.2 的核心差异
在深入评测之前,先梳理两款模型的根本差异。
GPT-5.2 是 OpenAI 上一代推理模型的代表,在通用推理、专业知识工作方面已有出色表现。GPT-5.3-Codex 则专注于编程能力,达到了 SWE-Bench Pro 56.8% 的得分。GPT-5.4 的关键突破在于:它不是一款新的垂直模型,而是一款将 GPT-5.3-Codex 的编程优势与 GPT-5.2 的通用推理能力整合在一起的通用模型。
这意味着,如果你同时需要编程和专业知识处理能力,GPT-5.4 可以替代过去需要组合使用两款模型才能完成的工作。
二、计算机使用:AI 从「回答」到「执行」的跨越
GPT-5.4 最具变革性的功能是其原生计算机使用能力。GPT-5.2 并不具备这一能力,而 GPT-5.4 可以在真实桌面环境中直接操作计算机。
2.1 OSWorld 测试:首次超越人类基准
OSWorld-Verified 测试通过屏幕截图以及键盘/鼠标操作来评估模型导航桌面环境的能力。在这一测试中:
| 模型 | OSWorld 成功率 |
|---|---|
| GPT-5.2 | 47.3% |
| GPT-5.4 | 75.0% |
| 人类基准 | 72.4% |
GPT-5.4 以 75.0% 的成功率首次超越人类 72.4% 的表现基准,提升幅度高达 27.7 个百分点。
2.2 浏览器操作:92.8% 的屏幕截图识别率
在 Online-Mind2Web 浏览器使用能力测试中,仅凭基于屏幕截图的观察,GPT-5.4 就能达到 92.8% 的成功率,远超 ChatGPT Atlas 智能体模式后者的 70.9%。这意味着 GPT-5.4 可以通过观察屏幕截图来理解网页界面并执行操作,无需依赖 DOM 结构解析。
2.3 企业级实测:Mainstay 案例
Mainstay 在针对约 3 万个 HOA(业主协会)及房产税门户网站的大规模测试中发现:
- 首轮尝试成功率:95%(此前 CUA 模型约 73%-79%)
- 三次尝试内成功率:100%
- 会话完成速度:提升约 3 倍
- Token 消耗:降低约 70%
这一数据表明,GPT-5.4 在大规模自动化场景中的可靠性和成本效益远超此前的任何模型。
三、编程能力:从辅助编码到自主开发
GPT-5.4 整合了 GPT-5.3-Codex 的编程优势,在多项编程基准测试中实现了对前代编程专用模型的反超。
3.1 SWE-Bench Pro 编程测试
| 模型 | SWE-Bench Pro 得分 |
|---|---|
| GPT-5.2 | 55.6% |
| GPT-5.3-Codex | 56.8% |
| GPT-5.4 | 57.7% |
GPT-5.4 以 57.7% 的得分超越了此前专注于编程的 GPT-5.3-Codex,提升约 0.9 个百分点。
3.2 Codex /fast 模式
在 Codex 中,GPT-5.4 支持 /fast 模式,将 Token 吐字速度提升至 1.5 倍,同时保持完全一致的智能水平。这对于需要频繁迭代和调试的开发者尤为有价值。
Cursor 开发者教育副总裁 Lee Robinson 评价道:「我们的工程师发现 GPT-5.4 比之前的模型更自然、更果断。它在解决模糊问题时不会自我怀疑,并且会主动并行化处理任务,以确保工作高效推进。」
3.3 复杂垂直前端任务
OpenAI 的内部测试表明,GPT-5.4 在处理复杂垂直前端任务时,产出的结果在审美水平和功能性上都有显著提升。结合「计算机使用」与编程能力的双重进化,GPT-5.4 能够自主完成从前端开发到测试验证的完整工作流程。
四、知识型工作:83% 持平或超越专业人士
4.1 GDPval 44 职业评测
GDPval 测试评估 AI 智能体在 44 个职业中完成明确知识工作的能力,涵盖美国 GDP 贡献度最高的 9 个行业。
| 模型 | GDPval 得分 |
|---|---|
| GPT-5.2 | 71.0% |
| GPT-5.4 | 83.0% |
| GPT-5.4 Pro | 82.0% |
GPT-5.4 在 83.0% 的案例中达到了与行业专业人士持平或更优的水准,提升幅度高达 12 个百分点。测试中 GPT-5.4 的推理强度设置为 xhigh,GPT-5.2 设置为 heavy(ChatGPT 中可用的较低强度)。
Mercor 首席执行官 Brendan Foody 表示:「GPT-5.4 目前位居 APEX-Agents 基准测试榜首,该测试专门衡量模型在专业服务领域的工作表现。」
4.2 金融建模:87.3% 准确率
在针对初级投行分析师水平的电子表格建模任务中,GPT-5.4 达到了 87.3% 的平均得分,而 GPT-5.2 仅为 68.4%,提升近 19 个百分点。这意味着 GPT-5.4 在金融建模任务中的表现已经接近专业初级分析师的水平。
4.3 演示文稿:68% 的人工偏好
人工评分者在 68.0% 的情况下更偏好 GPT-5.4 生成的演示文稿而非 GPT-5.2 的作品。偏好原因主要集中在三个方面:
- 更强的审美水平
- 更丰富的视觉元素
- 对图像生成功能更有效的运用
4.4 法律工作:BigLaw Bench 91%
Harvey 应用研究负责人 Niko Grupen 表示:「GPT-5.4 在 BigLaw Bench 评估中获得了 91% 的评分。它在构建复杂的交易分析、保持长篇合同准确性,以及提供法律从业者所需的高精度细节方面表现更佳。」
五、工具调用与联网搜索
5.1 工具搜索:Token 消耗降低 47%
GPT-5.4 引入了全新的「工具搜索」功能,解决了大规模工具生态带来的 Token 效率和上下文污染问题。
在 Scale MCP Atlas 基准测试的 250 个任务中,开启全部 36 个 MCP 服务器的情况下,「工具搜索」配置将总 Token 使用量降低了 47%,同时保持了同等准确率。
5.2 联网搜索:BrowseComp 17 个百分点的提升
在 BrowseComp 基准测试(衡量 AI 通过持续浏览网页获取难寻信息的能力)中:
| 模型 | BrowseComp 得分 |
|---|---|
| GPT-5.2 | 65.8% |
| GPT-5.4 | 82.7% |
| GPT-5.4 Pro | 89.3% |
GPT-5.4 相比 GPT-5.2 提升了 17 个百分点,而 GPT-5.4 Pro 更是创下了 89.3% 的纪录。
5.3 Zapier 评价
Zapier 首席执行官 Wade 表示:「GPT-5.4 在多步工具调用领域树立了新的行业标杆。GPT-5.4 完成了以往模型中途放弃的任务——它是迄今为止表现最持久、任务交付能力最强的模型。」
六、准确性与安全性
6.1 幻觉率降低
GPT-5.4 是 OpenAI 迄今为止准确率最高的模型:
- 单项陈述错误率降低 33%
- 完整回复包含错误的概率降低 18%
这一改进对于需要高可靠性输出的专业场景至关重要。
6.2 思维链可控性
OpenAI 推出了开源的「CoT 可控性」评估指标,用于衡量模型是否能故意混淆其推理过程以规避监控。研究发现 GPT-5.4 Thinking 控制其思维链的能力较低,这从安全性角度来看是一个积极特性——表明该模型尚不具备隐藏其真实推理逻辑的能力。
七、API 定价对比
GPT-5.4 的单 Token 价格高于 GPT-5.2,但凭借更出色的 Token 效率,在处理许多任务时能显著减少所需的总 Token 数。
| 模型 | 输入价格 | 缓存输入 | 输出价格 |
|---|---|---|---|
| gpt-5.2 | $1.75 / M | $0.175 / M | $14 / M |
| gpt-5.4 | $2.50 / M | $0.25 / M | $15 / M |
| gpt-5.4-pro | $30 / M | - | $180 / M |
以 Batch 和 Flex 模式使用时,价格仅为标准 API 费率的一半。对于批量处理任务,GPT-5.4 的实际成本优势可能比单价显示的更大。
八、适用场景建议
8.1 适合升级到 GPT-5.4 的场景
- 需要计算机自动化操作:如 RPA 流程、网页自动化、数据录入等
- 复杂多步骤工作流:需要模型自主规划、执行、验证的任务
- 专业文档处理:金融建模、法律文档、演示文稿等高要求输出
- 大规模工具调用:MCP 服务器或 API 集成场景
- 追求输出可靠性:对幻觉率有严格要求的应用
8.2 可以继续使用 GPT-5.2 的场景
- 简单问答和文案撰写:GPT-5.2 已足够应对
- 成本敏感型项目:预算有限且任务复杂度不高
- 非实时性批处理:使用 Batch 模式可以考虑性价比
8.3 推荐使用 GPT-5.4 Pro 的场景
- 极致性能需求:复杂推理任务中追求最优结果
- 前沿科学研究:FrontierMath Tier 4 等高难度学术问题
- 专业服务交付:对输出质量有极高要求的商业应用
九、总结
GPT-5.4 相比 GPT-5.2 的提升不是线性的,而是一个跨越式的进化。从「辅助回答问题」到「自主执行复杂任务」,GPT-5.4 在计算机使用、专业知识工作、工具协作等多个维度实现了对前代产品的全面超越。
对于企业用户和开发者而言,GPT-5.4 不仅仅是「更好的 GPT-5.2」,而是一个真正可以融入日常工作流程的生产力工具。83% 的专业知识工作持平或超越人类、75% 的计算机操作超越人类基准、47% 的工具调用 Token 消耗降低——这些数据共同指向一个结论:AI 从「工具」向「工作者」的演进,GPT-5.4 是一个重要的里程碑。