GPT-5.4 正式发布：相比 GPT-5.2 有何提升？企业级用户实测指南

2026年3月5日，OpenAI 正式发布 GPT-5.4。这是 OpenAI 继 GPT-5.3-Codex 之后推出的新一代通用推理模型，也是首个将顶尖编程能力、专业知识工作能力与原生计算机操作能力融为一体的模型。对于正在使用或考虑升级到 GPT-5.2 的用户而言，最关心的问题只有一个：GPT-5.4 相比 GPT-5.2 究竟提升了多少？这些提升在实际工作中是否感知得到？

本文将从实测角度，结合官方基准测试数据与行业反馈，对 GPT-5.4 的核心能力进行全面评估。

一、GPT-5.4 与 GPT-5.2 的核心差异

在深入评测之前，先梳理两款模型的根本差异。

GPT-5.2 是 OpenAI 上一代推理模型的代表，在通用推理、专业知识工作方面已有出色表现。GPT-5.3-Codex 则专注于编程能力，达到了 SWE-Bench Pro 56.8% 的得分。GPT-5.4 的关键突破在于：它不是一款新的垂直模型，而是一款将 GPT-5.3-Codex 的编程优势与 GPT-5.2 的通用推理能力整合在一起的通用模型。

这意味着，如果你同时需要编程和专业知识处理能力，GPT-5.4 可以替代过去需要组合使用两款模型才能完成的工作。

二、计算机使用：AI 从「回答」到「执行」的跨越

GPT-5.4 最具变革性的功能是其原生计算机使用能力。GPT-5.2 并不具备这一能力，而 GPT-5.4 可以在真实桌面环境中直接操作计算机。

2.1 OSWorld 测试：首次超越人类基准

OSWorld-Verified 测试通过屏幕截图以及键盘/鼠标操作来评估模型导航桌面环境的能力。在这一测试中：

模型	OSWorld 成功率
GPT-5.2	47.3%
GPT-5.4	75.0%
人类基准	72.4%

GPT-5.4 以 75.0% 的成功率首次超越人类 72.4% 的表现基准，提升幅度高达 27.7 个百分点。

2.2 浏览器操作：92.8% 的屏幕截图识别率

在 Online-Mind2Web 浏览器使用能力测试中，仅凭基于屏幕截图的观察，GPT-5.4 就能达到 92.8% 的成功率，远超 ChatGPT Atlas 智能体模式后者的 70.9%。这意味着 GPT-5.4 可以通过观察屏幕截图来理解网页界面并执行操作，无需依赖 DOM 结构解析。

2.3 企业级实测：Mainstay 案例

Mainstay 在针对约 3 万个 HOA（业主协会）及房产税门户网站的大规模测试中发现：

首轮尝试成功率：95%（此前 CUA 模型约 73%-79%）
三次尝试内成功率：100%
会话完成速度：提升约 3 倍
Token 消耗：降低约 70%

这一数据表明，GPT-5.4 在大规模自动化场景中的可靠性和成本效益远超此前的任何模型。

三、编程能力：从辅助编码到自主开发

GPT-5.4 整合了 GPT-5.3-Codex 的编程优势，在多项编程基准测试中实现了对前代编程专用模型的反超。

3.1 SWE-Bench Pro 编程测试

模型	SWE-Bench Pro 得分
GPT-5.2	55.6%
GPT-5.3-Codex	56.8%
GPT-5.4	57.7%

GPT-5.4 以 57.7% 的得分超越了此前专注于编程的 GPT-5.3-Codex，提升约 0.9 个百分点。

3.2 Codex /fast 模式

在 Codex 中，GPT-5.4 支持 /fast 模式，将 Token 吐字速度提升至 1.5 倍，同时保持完全一致的智能水平。这对于需要频繁迭代和调试的开发者尤为有价值。

Cursor 开发者教育副总裁 Lee Robinson 评价道：「我们的工程师发现 GPT-5.4 比之前的模型更自然、更果断。它在解决模糊问题时不会自我怀疑，并且会主动并行化处理任务，以确保工作高效推进。」

3.3 复杂垂直前端任务

OpenAI 的内部测试表明，GPT-5.4 在处理复杂垂直前端任务时，产出的结果在审美水平和功能性上都有显著提升。结合「计算机使用」与编程能力的双重进化，GPT-5.4 能够自主完成从前端开发到测试验证的完整工作流程。

四、知识型工作：83% 持平或超越专业人士

4.1 GDPval 44 职业评测

GDPval 测试评估 AI 智能体在 44 个职业中完成明确知识工作的能力，涵盖美国 GDP 贡献度最高的 9 个行业。

模型	GDPval 得分
GPT-5.2	71.0%
GPT-5.4	83.0%
GPT-5.4 Pro	82.0%

GPT-5.4 在 83.0% 的案例中达到了与行业专业人士持平或更优的水准，提升幅度高达 12 个百分点。测试中 GPT-5.4 的推理强度设置为 xhigh，GPT-5.2 设置为 heavy（ChatGPT 中可用的较低强度）。

Mercor 首席执行官 Brendan Foody 表示：「GPT-5.4 目前位居 APEX-Agents 基准测试榜首，该测试专门衡量模型在专业服务领域的工作表现。」

4.2 金融建模：87.3% 准确率

在针对初级投行分析师水平的电子表格建模任务中，GPT-5.4 达到了 87.3% 的平均得分，而 GPT-5.2 仅为 68.4%，提升近 19 个百分点。这意味着 GPT-5.4 在金融建模任务中的表现已经接近专业初级分析师的水平。

4.3 演示文稿：68% 的人工偏好

人工评分者在 68.0% 的情况下更偏好 GPT-5.4 生成的演示文稿而非 GPT-5.2 的作品。偏好原因主要集中在三个方面：

更强的审美水平
更丰富的视觉元素
对图像生成功能更有效的运用

4.4 法律工作：BigLaw Bench 91%

Harvey 应用研究负责人 Niko Grupen 表示：「GPT-5.4 在 BigLaw Bench 评估中获得了 91% 的评分。它在构建复杂的交易分析、保持长篇合同准确性，以及提供法律从业者所需的高精度细节方面表现更佳。」

五、工具调用与联网搜索

5.1 工具搜索：Token 消耗降低 47%

GPT-5.4 引入了全新的「工具搜索」功能，解决了大规模工具生态带来的 Token 效率和上下文污染问题。

在 Scale MCP Atlas 基准测试的 250 个任务中，开启全部 36 个 MCP 服务器的情况下，「工具搜索」配置将总 Token 使用量降低了 47%，同时保持了同等准确率。

5.2 联网搜索：BrowseComp 17 个百分点的提升

在 BrowseComp 基准测试（衡量 AI 通过持续浏览网页获取难寻信息的能力）中：

模型	BrowseComp 得分
GPT-5.2	65.8%
GPT-5.4	82.7%
GPT-5.4 Pro	89.3%

GPT-5.4 相比 GPT-5.2 提升了 17 个百分点，而 GPT-5.4 Pro 更是创下了 89.3% 的纪录。

5.3 Zapier 评价

Zapier 首席执行官 Wade 表示：「GPT-5.4 在多步工具调用领域树立了新的行业标杆。GPT-5.4 完成了以往模型中途放弃的任务——它是迄今为止表现最持久、任务交付能力最强的模型。」

六、准确性与安全性

6.1 幻觉率降低

GPT-5.4 是 OpenAI 迄今为止准确率最高的模型：

单项陈述错误率降低 33%
完整回复包含错误的概率降低 18%

这一改进对于需要高可靠性输出的专业场景至关重要。

6.2 思维链可控性

OpenAI 推出了开源的「CoT 可控性」评估指标，用于衡量模型是否能故意混淆其推理过程以规避监控。研究发现 GPT-5.4 Thinking 控制其思维链的能力较低，这从安全性角度来看是一个积极特性——表明该模型尚不具备隐藏其真实推理逻辑的能力。

七、API 定价对比

GPT-5.4 的单 Token 价格高于 GPT-5.2，但凭借更出色的 Token 效率，在处理许多任务时能显著减少所需的总 Token 数。

模型	输入价格	缓存输入	输出价格
gpt-5.2	$1.75 / M	$0.175 / M	$14 / M
gpt-5.4	$2.50 / M	$0.25 / M	$15 / M
gpt-5.4-pro	$30 / M	-	$180 / M

以 Batch 和 Flex 模式使用时，价格仅为标准 API 费率的一半。对于批量处理任务，GPT-5.4 的实际成本优势可能比单价显示的更大。

八、适用场景建议

8.1 适合升级到 GPT-5.4 的场景

需要计算机自动化操作：如 RPA 流程、网页自动化、数据录入等
复杂多步骤工作流：需要模型自主规划、执行、验证的任务
专业文档处理：金融建模、法律文档、演示文稿等高要求输出
大规模工具调用：MCP 服务器或 API 集成场景
追求输出可靠性：对幻觉率有严格要求的应用

8.2 可以继续使用 GPT-5.2 的场景

简单问答和文案撰写：GPT-5.2 已足够应对
成本敏感型项目：预算有限且任务复杂度不高
非实时性批处理：使用 Batch 模式可以考虑性价比

8.3 推荐使用 GPT-5.4 Pro 的场景

极致性能需求：复杂推理任务中追求最优结果
前沿科学研究：FrontierMath Tier 4 等高难度学术问题
专业服务交付：对输出质量有极高要求的商业应用

九、总结

GPT-5.4 相比 GPT-5.2 的提升不是线性的，而是一个跨越式的进化。从「辅助回答问题」到「自主执行复杂任务」，GPT-5.4 在计算机使用、专业知识工作、工具协作等多个维度实现了对前代产品的全面超越。

对于企业用户和开发者而言，GPT-5.4 不仅仅是「更好的 GPT-5.2」，而是一个真正可以融入日常工作流程的生产力工具。83% 的专业知识工作持平或超越人类、75% 的计算机操作超越人类基准、47% 的工具调用 Token 消耗降低——这些数据共同指向一个结论：AI 从「工具」向「工作者」的演进，GPT-5.4 是一个重要的里程碑。

GPT-5.4 正式发布：相比 GPT-5.2 有何提升？企业级用户实测指南#

一、GPT-5.4 与 GPT-5.2 的核心差异#

二、计算机使用：AI 从「回答」到「执行」的跨越#

2.1 OSWorld 测试：首次超越人类基准#

2.2 浏览器操作：92.8% 的屏幕截图识别率#

2.3 企业级实测：Mainstay 案例#

三、编程能力：从辅助编码到自主开发#

3.1 SWE-Bench Pro 编程测试#

3.2 Codex /fast 模式#

3.3 复杂垂直前端任务#

四、知识型工作：83% 持平或超越专业人士#

4.1 GDPval 44 职业评测#

4.2 金融建模：87.3% 准确率#

4.3 演示文稿：68% 的人工偏好#

4.4 法律工作：BigLaw Bench 91%#

五、工具调用与联网搜索#

5.1 工具搜索：Token 消耗降低 47%#

5.2 联网搜索：BrowseComp 17 个百分点的提升#

5.3 Zapier 评价#

六、准确性与安全性#

6.1 幻觉率降低#

6.2 思维链可控性#

七、API 定价对比#

八、适用场景建议#

8.1 适合升级到 GPT-5.4 的场景#

8.2 可以继续使用 GPT-5.2 的场景#

8.3 推荐使用 GPT-5.4 Pro 的场景#

九、总结#