GPT-5.4 正式发布:相比 GPT-5.2 有何提升?企业级用户实测指南

2026年3月5日,OpenAI 正式发布 GPT-5.4。这是 OpenAI 继 GPT-5.3-Codex 之后推出的新一代通用推理模型,也是首个将顶尖编程能力、专业知识工作能力与原生计算机操作能力融为一体的模型。对于正在使用或考虑升级到 GPT-5.2 的用户而言,最关心的问题只有一个:GPT-5.4 相比 GPT-5.2 究竟提升了多少?这些提升在实际工作中是否感知得到?

本文将从实测角度,结合官方基准测试数据与行业反馈,对 GPT-5.4 的核心能力进行全面评估。

一、GPT-5.4 与 GPT-5.2 的核心差异

在深入评测之前,先梳理两款模型的根本差异。

GPT-5.2 是 OpenAI 上一代推理模型的代表,在通用推理、专业知识工作方面已有出色表现。GPT-5.3-Codex 则专注于编程能力,达到了 SWE-Bench Pro 56.8% 的得分。GPT-5.4 的关键突破在于:它不是一款新的垂直模型,而是一款将 GPT-5.3-Codex 的编程优势与 GPT-5.2 的通用推理能力整合在一起的通用模型。

这意味着,如果你同时需要编程和专业知识处理能力,GPT-5.4 可以替代过去需要组合使用两款模型才能完成的工作。

二、计算机使用:AI 从「回答」到「执行」的跨越

GPT-5.4 最具变革性的功能是其原生计算机使用能力。GPT-5.2 并不具备这一能力,而 GPT-5.4 可以在真实桌面环境中直接操作计算机。

2.1 OSWorld 测试:首次超越人类基准

OSWorld-Verified 测试通过屏幕截图以及键盘/鼠标操作来评估模型导航桌面环境的能力。在这一测试中:

模型OSWorld 成功率
GPT-5.247.3%
GPT-5.475.0%
人类基准72.4%

GPT-5.4 以 75.0% 的成功率首次超越人类 72.4% 的表现基准,提升幅度高达 27.7 个百分点。

2.2 浏览器操作:92.8% 的屏幕截图识别率

在 Online-Mind2Web 浏览器使用能力测试中,仅凭基于屏幕截图的观察,GPT-5.4 就能达到 92.8% 的成功率,远超 ChatGPT Atlas 智能体模式后者的 70.9%。这意味着 GPT-5.4 可以通过观察屏幕截图来理解网页界面并执行操作,无需依赖 DOM 结构解析。

2.3 企业级实测:Mainstay 案例

Mainstay 在针对约 3 万个 HOA(业主协会)及房产税门户网站的大规模测试中发现:

  • 首轮尝试成功率:95%(此前 CUA 模型约 73%-79%)
  • 三次尝试内成功率:100%
  • 会话完成速度:提升约 3 倍
  • Token 消耗:降低约 70%

这一数据表明,GPT-5.4 在大规模自动化场景中的可靠性和成本效益远超此前的任何模型。

三、编程能力:从辅助编码到自主开发

GPT-5.4 整合了 GPT-5.3-Codex 的编程优势,在多项编程基准测试中实现了对前代编程专用模型的反超。

3.1 SWE-Bench Pro 编程测试

模型SWE-Bench Pro 得分
GPT-5.255.6%
GPT-5.3-Codex56.8%
GPT-5.457.7%

GPT-5.4 以 57.7% 的得分超越了此前专注于编程的 GPT-5.3-Codex,提升约 0.9 个百分点。

3.2 Codex /fast 模式

在 Codex 中,GPT-5.4 支持 /fast 模式,将 Token 吐字速度提升至 1.5 倍,同时保持完全一致的智能水平。这对于需要频繁迭代和调试的开发者尤为有价值。

Cursor 开发者教育副总裁 Lee Robinson 评价道:「我们的工程师发现 GPT-5.4 比之前的模型更自然、更果断。它在解决模糊问题时不会自我怀疑,并且会主动并行化处理任务,以确保工作高效推进。」

3.3 复杂垂直前端任务

OpenAI 的内部测试表明,GPT-5.4 在处理复杂垂直前端任务时,产出的结果在审美水平和功能性上都有显著提升。结合「计算机使用」与编程能力的双重进化,GPT-5.4 能够自主完成从前端开发到测试验证的完整工作流程。

四、知识型工作:83% 持平或超越专业人士

4.1 GDPval 44 职业评测

GDPval 测试评估 AI 智能体在 44 个职业中完成明确知识工作的能力,涵盖美国 GDP 贡献度最高的 9 个行业。

模型GDPval 得分
GPT-5.271.0%
GPT-5.483.0%
GPT-5.4 Pro82.0%

GPT-5.4 在 83.0% 的案例中达到了与行业专业人士持平或更优的水准,提升幅度高达 12 个百分点。测试中 GPT-5.4 的推理强度设置为 xhigh,GPT-5.2 设置为 heavy(ChatGPT 中可用的较低强度)。

Mercor 首席执行官 Brendan Foody 表示:「GPT-5.4 目前位居 APEX-Agents 基准测试榜首,该测试专门衡量模型在专业服务领域的工作表现。」

4.2 金融建模:87.3% 准确率

在针对初级投行分析师水平的电子表格建模任务中,GPT-5.4 达到了 87.3% 的平均得分,而 GPT-5.2 仅为 68.4%,提升近 19 个百分点。这意味着 GPT-5.4 在金融建模任务中的表现已经接近专业初级分析师的水平。

4.3 演示文稿:68% 的人工偏好

人工评分者在 68.0% 的情况下更偏好 GPT-5.4 生成的演示文稿而非 GPT-5.2 的作品。偏好原因主要集中在三个方面:

  • 更强的审美水平
  • 更丰富的视觉元素
  • 对图像生成功能更有效的运用

4.4 法律工作:BigLaw Bench 91%

Harvey 应用研究负责人 Niko Grupen 表示:「GPT-5.4 在 BigLaw Bench 评估中获得了 91% 的评分。它在构建复杂的交易分析、保持长篇合同准确性,以及提供法律从业者所需的高精度细节方面表现更佳。」

五、工具调用与联网搜索

5.1 工具搜索:Token 消耗降低 47%

GPT-5.4 引入了全新的「工具搜索」功能,解决了大规模工具生态带来的 Token 效率和上下文污染问题。

在 Scale MCP Atlas 基准测试的 250 个任务中,开启全部 36 个 MCP 服务器的情况下,「工具搜索」配置将总 Token 使用量降低了 47%,同时保持了同等准确率。

5.2 联网搜索:BrowseComp 17 个百分点的提升

在 BrowseComp 基准测试(衡量 AI 通过持续浏览网页获取难寻信息的能力)中:

模型BrowseComp 得分
GPT-5.265.8%
GPT-5.482.7%
GPT-5.4 Pro89.3%

GPT-5.4 相比 GPT-5.2 提升了 17 个百分点,而 GPT-5.4 Pro 更是创下了 89.3% 的纪录。

5.3 Zapier 评价

Zapier 首席执行官 Wade 表示:「GPT-5.4 在多步工具调用领域树立了新的行业标杆。GPT-5.4 完成了以往模型中途放弃的任务——它是迄今为止表现最持久、任务交付能力最强的模型。」

六、准确性与安全性

6.1 幻觉率降低

GPT-5.4 是 OpenAI 迄今为止准确率最高的模型:

  • 单项陈述错误率降低 33%
  • 完整回复包含错误的概率降低 18%

这一改进对于需要高可靠性输出的专业场景至关重要。

6.2 思维链可控性

OpenAI 推出了开源的「CoT 可控性」评估指标,用于衡量模型是否能故意混淆其推理过程以规避监控。研究发现 GPT-5.4 Thinking 控制其思维链的能力较低,这从安全性角度来看是一个积极特性——表明该模型尚不具备隐藏其真实推理逻辑的能力。

七、API 定价对比

GPT-5.4 的单 Token 价格高于 GPT-5.2,但凭借更出色的 Token 效率,在处理许多任务时能显著减少所需的总 Token 数。

模型输入价格缓存输入输出价格
gpt-5.2$1.75 / M$0.175 / M$14 / M
gpt-5.4$2.50 / M$0.25 / M$15 / M
gpt-5.4-pro$30 / M-$180 / M

以 Batch 和 Flex 模式使用时,价格仅为标准 API 费率的一半。对于批量处理任务,GPT-5.4 的实际成本优势可能比单价显示的更大。

八、适用场景建议

8.1 适合升级到 GPT-5.4 的场景

  • 需要计算机自动化操作:如 RPA 流程、网页自动化、数据录入等
  • 复杂多步骤工作流:需要模型自主规划、执行、验证的任务
  • 专业文档处理:金融建模、法律文档、演示文稿等高要求输出
  • 大规模工具调用:MCP 服务器或 API 集成场景
  • 追求输出可靠性:对幻觉率有严格要求的应用

8.2 可以继续使用 GPT-5.2 的场景

  • 简单问答和文案撰写:GPT-5.2 已足够应对
  • 成本敏感型项目:预算有限且任务复杂度不高
  • 非实时性批处理:使用 Batch 模式可以考虑性价比

8.3 推荐使用 GPT-5.4 Pro 的场景

  • 极致性能需求:复杂推理任务中追求最优结果
  • 前沿科学研究:FrontierMath Tier 4 等高难度学术问题
  • 专业服务交付:对输出质量有极高要求的商业应用

九、总结

GPT-5.4 相比 GPT-5.2 的提升不是线性的,而是一个跨越式的进化。从「辅助回答问题」到「自主执行复杂任务」,GPT-5.4 在计算机使用、专业知识工作、工具协作等多个维度实现了对前代产品的全面超越。

对于企业用户和开发者而言,GPT-5.4 不仅仅是「更好的 GPT-5.2」,而是一个真正可以融入日常工作流程的生产力工具。83% 的专业知识工作持平或超越人类、75% 的计算机操作超越人类基准、47% 的工具调用 Token 消耗降低——这些数据共同指向一个结论:AI 从「工具」向「工作者」的演进,GPT-5.4 是一个重要的里程碑。