GPT-5.4 官方发布:全面超越 GPT-5.2 的六大核心升级深度解析
2026年3月5日,OpenAI 正式发布了 GPT-5.4,这是该公司迄今为止针对专业化工作负载能力最强、效率最高的前沿模型。GPT-5.4 将近期在推理、编程及智能体工作流领域的顶尖性能集于一身,同时在计算机使用、视觉理解、知识型工作等多个维度实现了突破性进展。本文将从技术原理、基准测试数据、实际应用场景等角度,对 GPT-5.4 进行全面深度的技术解析。
一、GPT-5.4 核心定位:专业工作的全能选手
GPT-5.4 的定位并非单纯追求 benchmark 分数的提升,而是聚焦于「真实工作场景中的可靠表现」。与 GPT-5.3-Codex 这类专注编程的垂直模型不同,GPT-5.4 是首个将 GPT-5.3-Codex 行业领先的编程能力与专业知识工作、计算机使用能力整合在一起的通用推理模型。
这一整合的战略意义在于:现实世界的专业任务很少是单一类型的——一个投行分析师可能需要先编写 Python 脚本处理数据,再将结果整合到 Excel 表格,最后生成一份 PowerPoint 演示文稿。GPT-5.4 的多维度能力融合,正是为了应对这类复杂的混合工作负载。
GPT-5.4 同步推出了两个版本:
- GPT-5.4(标准版):适用于通用专业化场景
- GPT-5.4 Pro:专为追求极致性能的用户设计,在复杂推理任务中表现更优
二、计算机使用能力:原生操作计算机的智能体
GPT-5.4 最具颠覆性的升级在于其「原生计算机使用能力」。这是 OpenAI 首个具备顶尖计算机使用能力的通用模型,让智能体能够直接操作计算机桌面、跨应用程序执行复杂工作流程。
2.1 技术原理
开发者可以通过「开发者消息」引导模型行为,灵活调整其在不同场景下的表现。模型支持通过 Playwright 等浏览器自动化库编写代码来操作计算机,也能根据屏幕截图直接下达鼠标和键盘指令。这意味着 GPT-5.4 可以在真实桌面环境中导航、操作文件、填写表单、执行多步骤的工作流程。
2.2 基准测试数据
在 OSWorld-Verified 测试中,GPT-5.4 通过屏幕截图以及键盘/鼠标操作导航桌面环境的能力达到了 75.0% 的成功率,这一成绩不仅大幅超越 GPT-5.2 的 47.3%,更是首次超越了人类 72.4% 的表现基准。
在 WebArena-Verified 浏览器使用能力测试中,GPT-5.4 结合 DOM 和屏幕截图驱动的交互方式达到了 67.3% 的成功率(GPT-5.2 为 65.4%)。在 Online-Mind2Web 测试中,仅凭基于屏幕截图的观察,GPT-5.4 就能达到 92.8% 的成功率,远超 ChatGPT Atlas 智能体模式后者的 70.9%。
2.3 实际应用案例
Mainstay 首席执行官 Dod Fraser 在实测后表示:「在针对约 3 万个 HOA 及房产税门户网站的计算机使用性能评估中,GPT-5.4 的首轮尝试成功率达到 95%,三次尝试内成功率为 100%;相比之下,此前的 CUA 模型成功率仅为 73%-79%。此外,它的会话完成速度提升了约 3 倍,同时 Token 消耗降低了约 70%。」
这一数据表明,GPT-5.4 在大规模企业级自动化场景中,不仅可靠性大幅提升,成本效益也实现了质的飞跃。
三、编程与开发:Codex 能力的全面继承
GPT-5.4 整合了 GPT-5.3-Codex 行业领先的编程优势,同时优化了在各类工具、软件环境以及专业任务中的表现。
3.1 编程基准测试
在 SWE-Bench Pro 公开测试中,GPT-5.4 达到了 57.7% 的得分(GPT-5.3-Codex 为 56.8%,GPT-5.2 为 55.6%),实现了对前代编程专用模型的反超。在 Terminal-Bench 2.0 测试中,GPT-5.4 达到了 75.1% 的准确率(GPT-5.3-Codex 为 77.3%,GPT-5.2 为 62.2%)。
这意味着 GPT-5.4 在继承编程能力的同时,其通用推理能力的加持使其能够更好地理解复杂任务的上下文,在长时间运行的开发任务中减少人工干预。
3.2 Codex /fast 模式
在 Codex 中开启 /fast 模式后,GPT-5.4 的 Token 吐字速度可提升至 1.5 倍。模型本身的智能水平完全一致,只是响应更快。对于需要频繁迭代和调试的开发者而言,这意味着更流畅的开发体验。
开发者也可以通过 API 中的「优先处理服务」(Priority Processing)以同样的高速访问 GPT-5.4。
3.3 垂直前端任务的突破
OpenAI 的评估和内部测试表明,GPT-5.4 擅长处理复杂的垂直前端任务。与此前任何模型相比,其产出的结果在审美水平和功能性上都有显著提升。这一能力结合了「计算机使用」与编程能力的双重进化,得益于更强的视觉感知能力。
四、知识型工作:从辅助到主导
GPT-5.4 在专业知识工作方面的突破,体现在其能够「交付你所要求的结果,无需大量往复沟通」。
4.1 GDPval 评测:83% 持平或超越专业人士
在 GDPval 测试(评估智能体在 44 个职业中产出明确知识工作能力的测试)中,GPT-5.4 刷新了纪录。在与行业专业人士的横向评测中,GPT-5.4 在 83.0% 的案例中达到了持平或更优的水准,而 GPT-5.2 仅为 71.0%。
Mercor 首席执行官 Brendan Foody 评价道:「GPT-5.4 是我们测试过的最强模型。它目前位居 APEX-Agents 基准测试榜首,该测试专门衡量模型在专业服务领域的工作表现。它极擅长处理长程交付任务,如演示文稿、财务模型和法律分析。」
4.2 金融建模:87.3% 准确率
在针对初级投行分析师水平的电子表格建模任务内部基准测试中,GPT-5.4 的平均得分达到 87.3%(GPT-5.2 为 68.4%,提升近 19 个百分点)。GPT-5.4 Pro 版本得分 83.6%。
4.3 演示文稿:68% 的人工评分偏好
在演示文稿评估测试中,人工评分者在 68.0% 的情况下更偏好 GPT-5.4 生成的作品,主要原因在于其更强的审美水平、更丰富的视觉元素,以及对图像生成功能更有效的运用。
4.4 法律领域:BigLaw Bench 91%
Harvey 应用研究负责人 Niko Grupen 表示:「GPT-5.4 为处理大量文档的法律工作树立了新标杆。在我们的 BigLaw Bench 评估中,它获得了 91% 的评分。与其他模型相比,GPT-5.4 在构建复杂的交易分析、保持长篇合同准确性,以及提供法律从业者所需的高精度细节方面表现更佳。」
4.5 准确率提升:幻觉率降低 33%
GPT-5.4 是 OpenAI 迄今为止准确率最高的模型:在用户标记了事实错误的一组去标识化提示词测试中,与 GPT-5.2 相比,GPT-5.4 的单项陈述错误率降低了 33%,完整回复包含错误的概率降低了 18%。
这一改进对于需要高可靠性输出的专业场景(如法律、金融、医疗)至关重要。
五、工具使用与智能体工作流
GPT-5.4 在工具协作方面实现了显著优化,使智能体能够在更庞大的工具生态中更可靠地运行。
5.1 工具搜索(Tool Search)
这是 GPT-5.4 引入的全新能力,解决了大规模工具生态带来的 Token 效率和上下文污染问题。
此前,当模型需要调用工具时,所有工具定义都必须预先包含在提示词中。对于拥有大量工具的系统,这会导致每次请求额外增加数千甚至数万个 Token,不仅推高了成本、减慢了响应速度,还让上下文中充斥着模型可能永远用不到的冗余信息。
通过工具搜索,GPT-5.4 不再需要预加载完整定义,而是接收一份精简的可选工具列表及工具搜索能力。当模型需要调用特定工具时,它会即时查找该工具的定义,并将其添加到当前对话上下文。
这一方法在 Scale MCP Atlas 基准测试的 250 个任务中,将总 Token 使用量降低了 47%,同时保持了同等准确率。对于 MCP 服务器等工具定义可能包含数万个 Token 的场景,效率提升尤为显著。
5.2 工具调用准确率:Toolathlon 54.6%
GPT-5.4 在 Toolathlon 基准测试中达到了 54.6%(GPT-5.2 为 45.7%,提升约 9 个百分点)。该测试评估 AI 智能体利用真实世界工具和 API 完成多步任务的能力。
5.3 联网搜索:BrowseComp 82.7%
在 BrowseComp 基准测试(衡量 AI 智能体通过持续浏览网页获取难寻信息的能力)中,GPT-5.4 相比 GPT-5.2 提升了 17 个百分点,达到 82.7%;GPT-5.4 Pro 更是创下了 89.3% 的纪录。
Zapier 首席执行官 Wade 评价道:「GPT-5.4 在多步工具调用领域树立了新的行业标杆。GPT-5.4 完成了以往模型中途放弃的任务——它是迄今为止表现最持久、任务交付能力最强的模型。」
六、安全性:思维链可控性与网络安全
GPT-5.4 的安全防护建立在 GPT-5.3-Codex 引入的措施之上。根据 OpenAI 的《准备框架》(Preparedness Framework),GPT-5.4 被评定为具有「高网络能力」级别,并配置了相应的安全防护措施。
6.1 思维链可控性评估
OpenAI 推出了全新的开源评估指标——「CoT 可控性」,用于衡量模型是否能故意混淆其推理过程以规避监控。研究发现,GPT-5.4 Thinking 控制其思维链(CoT)的能力较低。从安全性角度来看,这是一个积极的特性,表明该模型尚不具备隐藏其真实推理逻辑的能力,也证明了思维链监控依然是一项有效的安全手段。
6.2 网络安全防护
GPT-5.4 配置了一套扩展版网络安全技术栈,涵盖了监控系统、可信访问控制,以及针对零数据留存(ZDR)层面高风险请求的异步拦截机制。由于网络安全能力本质上具有「双重用途」(dual-use),OpenAI 在部署时保持了审慎态度。
七、视觉理解:文档解析与图像感知
GPT-5.4 的视觉能力提升体现在多个层面。
7.1 MMMU-Pro 测试
在评估视觉理解与推理能力的 MMMU-Pro 测试中,GPT-5.4 在不使用工具的情况下达到了 81.2% 的成功率(GPT-5.2 为 79.5%)。
7.2 OmniDocBench 文档解析
在 OmniDocBench 测试中,GPT-5.4 在不使用推理强度的情况下平均误差降至 0.109(归一化编辑距离),较 GPT-5.2 的 0.140 有显著提升。
7.3 原始图像输入级别
从 GPT-5.4 起,OpenAI 引入了「原始(original)」图像输入细节级别,支持全保真感知,上限为 1024 万总像素或 6000 像素的最大长边(以较低者为准)。「高(high)」图像输入细节级别现在最高支持 256 万总像素或 2048 像素的最大长边。这对于需要全保真度的高分辨率图像处理场景至关重要。
八、定价与可用性
8.1 API 定价
GPT-5.4 的单 Token 价格高于 GPT-5.2,但凭借更出色的 Token 效率,它在处理许多任务时能显著减少所需的总 Token 数。
| 模型 | 输入价格 | 缓存输入价格 | 输出价格 |
|---|---|---|---|
| gpt-5.2 | $1.75 / 百万 token | $0.175 / 百万 token | $14 / 百万 token |
| gpt-5.4 | $2.50 / 百万 token | $0.25 / 百万 token | $15 / 百万 token |
| gpt-5.4-pro | $30 / 百万 token | - | $180 / 百万 token |
Batch 和 Flex 的价格为标准 API 费率的一半,Priority(优先)处理的费率为标准 API 费率的两倍。
8.2 ChatGPT 可用性
GPT-5.4 Thinking 自发布起向 ChatGPT Plus、Team 及 Pro 用户开放,并取代 GPT-5.2 Thinking。GPT-5.2 Thinking 将在模型选择器的「传统模型」栏目中为付费用户保留三个月,随后将于 2026 年 6 月 5 日正式停用。
GPT-5.4 Pro 版本专门提供给 Pro 和 Enterprise 用户。
8.3 Codex 支持
Codex 中的 GPT-5.4 包含对 1M 上下文窗口的实验性支持。开发者可以通过配置 model_context_window 和 model_auto_compact_token_limit 来试用此功能。超过标准 272K 上下文窗口的请求,将按正常费率的 2 倍计入用量限制。
九、总结:GPT-5.4 意味着什么
GPT-5.4 的发布标志着 OpenAI 从「模型能力展示」向「真实工作可靠性」的战略转型。六大核心升级共同指向一个核心价值:减少人工干预,提升交付质量。
- 计算机使用能力让 AI 从「回答问题」进化到「执行任务」
- 83% 的 GDPval 专业表现意味着 AI 可以在大多数知识型工作中独当一面
- 工具搜索让智能体能够在真实世界的软件生态中无缝协作
- 33% 的错误率降低使 AI 输出真正值得信赖
对于开发者而言,GPT-5.4 的工具调用优化和 1M 上下文支持为构建复杂智能体应用提供了坚实基础。对于企业用户而言,GPT-5.4 在电子表格、演示文稿、法律文档等专业任务中的突破,使其成为真正可以融入日常工作流程的生产力工具。
GPT-5.4 不是终点,而是 AI 从「辅助工具」向「自主工作者」演进的一个重要里程碑。