GPT-5.4 官方发布：全面超越 GPT-5.2 的六大核心升级深度解析

2026年3月5日，OpenAI 正式发布了 GPT-5.4，这是该公司迄今为止针对专业化工作负载能力最强、效率最高的前沿模型。GPT-5.4 将近期在推理、编程及智能体工作流领域的顶尖性能集于一身，同时在计算机使用、视觉理解、知识型工作等多个维度实现了突破性进展。本文将从技术原理、基准测试数据、实际应用场景等角度，对 GPT-5.4 进行全面深度的技术解析。

一、GPT-5.4 核心定位：专业工作的全能选手

GPT-5.4 的定位并非单纯追求 benchmark 分数的提升，而是聚焦于「真实工作场景中的可靠表现」。与 GPT-5.3-Codex 这类专注编程的垂直模型不同，GPT-5.4 是首个将 GPT-5.3-Codex 行业领先的编程能力与专业知识工作、计算机使用能力整合在一起的通用推理模型。

这一整合的战略意义在于：现实世界的专业任务很少是单一类型的——一个投行分析师可能需要先编写 Python 脚本处理数据，再将结果整合到 Excel 表格，最后生成一份 PowerPoint 演示文稿。GPT-5.4 的多维度能力融合，正是为了应对这类复杂的混合工作负载。

GPT-5.4 同步推出了两个版本：

GPT-5.4（标准版）：适用于通用专业化场景
GPT-5.4 Pro：专为追求极致性能的用户设计，在复杂推理任务中表现更优

二、计算机使用能力：原生操作计算机的智能体

GPT-5.4 最具颠覆性的升级在于其「原生计算机使用能力」。这是 OpenAI 首个具备顶尖计算机使用能力的通用模型，让智能体能够直接操作计算机桌面、跨应用程序执行复杂工作流程。

2.1 技术原理

开发者可以通过「开发者消息」引导模型行为，灵活调整其在不同场景下的表现。模型支持通过 Playwright 等浏览器自动化库编写代码来操作计算机，也能根据屏幕截图直接下达鼠标和键盘指令。这意味着 GPT-5.4 可以在真实桌面环境中导航、操作文件、填写表单、执行多步骤的工作流程。

2.2 基准测试数据

在 OSWorld-Verified 测试中，GPT-5.4 通过屏幕截图以及键盘/鼠标操作导航桌面环境的能力达到了 75.0% 的成功率，这一成绩不仅大幅超越 GPT-5.2 的 47.3%，更是首次超越了人类 72.4% 的表现基准。

在 WebArena-Verified 浏览器使用能力测试中，GPT-5.4 结合 DOM 和屏幕截图驱动的交互方式达到了 67.3% 的成功率（GPT-5.2 为 65.4%）。在 Online-Mind2Web 测试中，仅凭基于屏幕截图的观察，GPT-5.4 就能达到 92.8% 的成功率，远超 ChatGPT Atlas 智能体模式后者的 70.9%。

2.3 实际应用案例

Mainstay 首席执行官 Dod Fraser 在实测后表示：「在针对约 3 万个 HOA 及房产税门户网站的计算机使用性能评估中，GPT-5.4 的首轮尝试成功率达到 95%，三次尝试内成功率为 100%；相比之下，此前的 CUA 模型成功率仅为 73%-79%。此外，它的会话完成速度提升了约 3 倍，同时 Token 消耗降低了约 70%。」

这一数据表明，GPT-5.4 在大规模企业级自动化场景中，不仅可靠性大幅提升，成本效益也实现了质的飞跃。

三、编程与开发：Codex 能力的全面继承

GPT-5.4 整合了 GPT-5.3-Codex 行业领先的编程优势，同时优化了在各类工具、软件环境以及专业任务中的表现。

3.1 编程基准测试

在 SWE-Bench Pro 公开测试中，GPT-5.4 达到了 57.7% 的得分（GPT-5.3-Codex 为 56.8%，GPT-5.2 为 55.6%），实现了对前代编程专用模型的反超。在 Terminal-Bench 2.0 测试中，GPT-5.4 达到了 75.1% 的准确率（GPT-5.3-Codex 为 77.3%，GPT-5.2 为 62.2%）。

这意味着 GPT-5.4 在继承编程能力的同时，其通用推理能力的加持使其能够更好地理解复杂任务的上下文，在长时间运行的开发任务中减少人工干预。

3.2 Codex /fast 模式

在 Codex 中开启 /fast 模式后，GPT-5.4 的 Token 吐字速度可提升至 1.5 倍。模型本身的智能水平完全一致，只是响应更快。对于需要频繁迭代和调试的开发者而言，这意味着更流畅的开发体验。

开发者也可以通过 API 中的「优先处理服务」（Priority Processing）以同样的高速访问 GPT-5.4。

3.3 垂直前端任务的突破

OpenAI 的评估和内部测试表明，GPT-5.4 擅长处理复杂的垂直前端任务。与此前任何模型相比，其产出的结果在审美水平和功能性上都有显著提升。这一能力结合了「计算机使用」与编程能力的双重进化，得益于更强的视觉感知能力。

四、知识型工作：从辅助到主导

GPT-5.4 在专业知识工作方面的突破，体现在其能够「交付你所要求的结果，无需大量往复沟通」。

4.1 GDPval 评测：83% 持平或超越专业人士

在 GDPval 测试（评估智能体在 44 个职业中产出明确知识工作能力的测试）中，GPT-5.4 刷新了纪录。在与行业专业人士的横向评测中，GPT-5.4 在 83.0% 的案例中达到了持平或更优的水准，而 GPT-5.2 仅为 71.0%。

Mercor 首席执行官 Brendan Foody 评价道：「GPT-5.4 是我们测试过的最强模型。它目前位居 APEX-Agents 基准测试榜首，该测试专门衡量模型在专业服务领域的工作表现。它极擅长处理长程交付任务，如演示文稿、财务模型和法律分析。」

4.2 金融建模：87.3% 准确率

在针对初级投行分析师水平的电子表格建模任务内部基准测试中，GPT-5.4 的平均得分达到 87.3%（GPT-5.2 为 68.4%，提升近 19 个百分点）。GPT-5.4 Pro 版本得分 83.6%。

4.3 演示文稿：68% 的人工评分偏好

在演示文稿评估测试中，人工评分者在 68.0% 的情况下更偏好 GPT-5.4 生成的作品，主要原因在于其更强的审美水平、更丰富的视觉元素，以及对图像生成功能更有效的运用。

4.4 法律领域：BigLaw Bench 91%

Harvey 应用研究负责人 Niko Grupen 表示：「GPT-5.4 为处理大量文档的法律工作树立了新标杆。在我们的 BigLaw Bench 评估中，它获得了 91% 的评分。与其他模型相比，GPT-5.4 在构建复杂的交易分析、保持长篇合同准确性，以及提供法律从业者所需的高精度细节方面表现更佳。」

4.5 准确率提升：幻觉率降低 33%

GPT-5.4 是 OpenAI 迄今为止准确率最高的模型：在用户标记了事实错误的一组去标识化提示词测试中，与 GPT-5.2 相比，GPT-5.4 的单项陈述错误率降低了 33%，完整回复包含错误的概率降低了 18%。

这一改进对于需要高可靠性输出的专业场景（如法律、金融、医疗）至关重要。

五、工具使用与智能体工作流

GPT-5.4 在工具协作方面实现了显著优化，使智能体能够在更庞大的工具生态中更可靠地运行。

5.1 工具搜索（Tool Search）

这是 GPT-5.4 引入的全新能力，解决了大规模工具生态带来的 Token 效率和上下文污染问题。

此前，当模型需要调用工具时，所有工具定义都必须预先包含在提示词中。对于拥有大量工具的系统，这会导致每次请求额外增加数千甚至数万个 Token，不仅推高了成本、减慢了响应速度，还让上下文中充斥着模型可能永远用不到的冗余信息。

通过工具搜索，GPT-5.4 不再需要预加载完整定义，而是接收一份精简的可选工具列表及工具搜索能力。当模型需要调用特定工具时，它会即时查找该工具的定义，并将其添加到当前对话上下文。

这一方法在 Scale MCP Atlas 基准测试的 250 个任务中，将总 Token 使用量降低了 47%，同时保持了同等准确率。对于 MCP 服务器等工具定义可能包含数万个 Token 的场景，效率提升尤为显著。

5.2 工具调用准确率：Toolathlon 54.6%

GPT-5.4 在 Toolathlon 基准测试中达到了 54.6%（GPT-5.2 为 45.7%，提升约 9 个百分点）。该测试评估 AI 智能体利用真实世界工具和 API 完成多步任务的能力。

5.3 联网搜索：BrowseComp 82.7%

在 BrowseComp 基准测试（衡量 AI 智能体通过持续浏览网页获取难寻信息的能力）中，GPT-5.4 相比 GPT-5.2 提升了 17 个百分点，达到 82.7%；GPT-5.4 Pro 更是创下了 89.3% 的纪录。

Zapier 首席执行官 Wade 评价道：「GPT-5.4 在多步工具调用领域树立了新的行业标杆。GPT-5.4 完成了以往模型中途放弃的任务——它是迄今为止表现最持久、任务交付能力最强的模型。」

六、安全性：思维链可控性与网络安全

GPT-5.4 的安全防护建立在 GPT-5.3-Codex 引入的措施之上。根据 OpenAI 的《准备框架》（Preparedness Framework），GPT-5.4 被评定为具有「高网络能力」级别，并配置了相应的安全防护措施。

6.1 思维链可控性评估

OpenAI 推出了全新的开源评估指标——「CoT 可控性」，用于衡量模型是否能故意混淆其推理过程以规避监控。研究发现，GPT-5.4 Thinking 控制其思维链（CoT）的能力较低。从安全性角度来看，这是一个积极的特性，表明该模型尚不具备隐藏其真实推理逻辑的能力，也证明了思维链监控依然是一项有效的安全手段。

6.2 网络安全防护

GPT-5.4 配置了一套扩展版网络安全技术栈，涵盖了监控系统、可信访问控制，以及针对零数据留存（ZDR）层面高风险请求的异步拦截机制。由于网络安全能力本质上具有「双重用途」（dual-use），OpenAI 在部署时保持了审慎态度。

七、视觉理解：文档解析与图像感知

GPT-5.4 的视觉能力提升体现在多个层面。

7.1 MMMU-Pro 测试

在评估视觉理解与推理能力的 MMMU-Pro 测试中，GPT-5.4 在不使用工具的情况下达到了 81.2% 的成功率（GPT-5.2 为 79.5%）。

7.2 OmniDocBench 文档解析

在 OmniDocBench 测试中，GPT-5.4 在不使用推理强度的情况下平均误差降至 0.109（归一化编辑距离），较 GPT-5.2 的 0.140 有显著提升。

7.3 原始图像输入级别

从 GPT-5.4 起，OpenAI 引入了「原始（original）」图像输入细节级别，支持全保真感知，上限为 1024 万总像素或 6000 像素的最大长边（以较低者为准）。「高（high）」图像输入细节级别现在最高支持 256 万总像素或 2048 像素的最大长边。这对于需要全保真度的高分辨率图像处理场景至关重要。

八、定价与可用性

8.1 API 定价

GPT-5.4 的单 Token 价格高于 GPT-5.2，但凭借更出色的 Token 效率，它在处理许多任务时能显著减少所需的总 Token 数。

模型	输入价格	缓存输入价格	输出价格
gpt-5.2	$1.75 / 百万 token	$0.175 / 百万 token	$14 / 百万 token
gpt-5.4	$2.50 / 百万 token	$0.25 / 百万 token	$15 / 百万 token
gpt-5.4-pro	$30 / 百万 token	-	$180 / 百万 token

Batch 和 Flex 的价格为标准 API 费率的一半，Priority（优先）处理的费率为标准 API 费率的两倍。

8.2 ChatGPT 可用性

GPT-5.4 Thinking 自发布起向 ChatGPT Plus、Team 及 Pro 用户开放，并取代 GPT-5.2 Thinking。GPT-5.2 Thinking 将在模型选择器的「传统模型」栏目中为付费用户保留三个月，随后将于 2026 年 6 月 5 日正式停用。

GPT-5.4 Pro 版本专门提供给 Pro 和 Enterprise 用户。

8.3 Codex 支持

Codex 中的 GPT-5.4 包含对 1M 上下文窗口的实验性支持。开发者可以通过配置 model_context_window 和 model_auto_compact_token_limit 来试用此功能。超过标准 272K 上下文窗口的请求，将按正常费率的 2 倍计入用量限制。

九、总结：GPT-5.4 意味着什么

GPT-5.4 的发布标志着 OpenAI 从「模型能力展示」向「真实工作可靠性」的战略转型。六大核心升级共同指向一个核心价值：减少人工干预，提升交付质量。

计算机使用能力让 AI 从「回答问题」进化到「执行任务」
83% 的 GDPval 专业表现意味着 AI 可以在大多数知识型工作中独当一面
工具搜索让智能体能够在真实世界的软件生态中无缝协作
33% 的错误率降低使 AI 输出真正值得信赖

对于开发者而言，GPT-5.4 的工具调用优化和 1M 上下文支持为构建复杂智能体应用提供了坚实基础。对于企业用户而言，GPT-5.4 在电子表格、演示文稿、法律文档等专业任务中的突破，使其成为真正可以融入日常工作流程的生产力工具。

GPT-5.4 不是终点，而是 AI 从「辅助工具」向「自主工作者」演进的一个重要里程碑。

GPT-5.4 官方发布：全面超越 GPT-5.2 的六大核心升级深度解析#

一、GPT-5.4 核心定位：专业工作的全能选手#

二、计算机使用能力：原生操作计算机的智能体#

2.1 技术原理#

2.2 基准测试数据#

2.3 实际应用案例#

三、编程与开发：Codex 能力的全面继承#

3.1 编程基准测试#

3.2 Codex /fast 模式#

3.3 垂直前端任务的突破#

四、知识型工作：从辅助到主导#

4.1 GDPval 评测：83% 持平或超越专业人士#

4.2 金融建模：87.3% 准确率#

4.3 演示文稿：68% 的人工评分偏好#

4.4 法律领域：BigLaw Bench 91%#

4.5 准确率提升：幻觉率降低 33%#

五、工具使用与智能体工作流#

5.1 工具搜索（Tool Search）#

5.2 工具调用准确率：Toolathlon 54.6%#

5.3 联网搜索：BrowseComp 82.7%#

六、安全性：思维链可控性与网络安全#

6.1 思维链可控性评估#

6.2 网络安全防护#

七、视觉理解：文档解析与图像感知#

7.1 MMMU-Pro 测试#

7.2 OmniDocBench 文档解析#

7.3 原始图像输入级别#

八、定价与可用性#

8.1 API 定价#

8.2 ChatGPT 可用性#

8.3 Codex 支持#

九、总结：GPT-5.4 意味着什么#