GPT-5.5 正式发布:OpenAI 最强模型降临,Agent 能力全面超越 GPT-5.4
2026年4月23日,OpenAI 正式发布 GPT-5.5,这是该公司迄今为止最智能、最直观的 AI 模型。GPT-5.5 的定位是"用于真实工作的新一代智能"(A new class of intelligence for real work),它不仅在多项基准测试中刷新了纪录,更在真实工作场景中的任务完成能力上实现了质的飞跃。与 GPT-5.4 相比,GPT-5.5 在保持相同 Token 延迟的同时,智能水平大幅提升,完成相同任务所需的 Token 数量显著减少。本文将结合 OpenAI 官方公告与多维度评测数据,对 GPT-5.5 的核心能力进行系统解析。
一、GPT-5.5 核心定位:不是更强推理,而是更高效执行
理解 GPT-5.5 的定位,需要先区分两个概念:推理智能与执行智能。
GPT-5.5 并不是在"解决最难的问题"上做文章,而是在"以更少的外部引导完成更复杂的多步骤任务“上实现了突破。用更直白的话说:之前需要手把手给 AI 下达每一步指令,现在可以把一个模糊的、半成品的多部分任务直接丢给 GPT-5.5,让它自主规划、调用工具、检查结果、持续推进,直到任务完成。
OpenAI 联合创始人 Greg Brockman 将 GPT-5.5 定义为"新一类智能”,具体体现在以下四个核心能力方向的强化:
- 代理式编码(Agentic Coding):从辅助编码到自主完成工程任务
- 计算机使用(Computer Use):在真实桌面环境中自主操作
- 知识工作(Knowledge Work):文档、表格、分析等专业知识任务的端到端处理
- 科学研究(Scientific Research):从信息检索到多阶段科学分析的工作流支持
二、基准测试全面超越:GPT-5.5 与竞品的详细对比
GPT-5.5 在 OpenAI 公布的多项基准测试中均取得了业界领先的成绩,以下从编码、专业知识工作、计算机使用、工具调用、学术研究、网络安全和长文本六大维度进行详细对比。
2.1 编码与软件工程
编码能力是 GPT-5.5 提升最显著的核心领域之一,OpenAI 在这一代模型中将"理解系统架构"和"预测影响范围"作为训练重点。
| 评测基准 | GPT-5.5 | GPT-5.4 | Claude Opus 4.7 | Gemini 3.1 Pro |
|---|---|---|---|---|
| Terminal-Bench 2.0 | 82.7% | 75.1% | 69.4% | 68.5% |
| Expert-SWE(内部) | 73.1% | 68.5% | — | — |
| SWE-Bench Pro(公开) | 58.6% | 57.7% | 64.3% | 54.2% |
Terminal-Bench 2.0 是评估复杂命令行工作流的基准,要求模型在长周期任务中进行规划、迭代和工具协调,GPT-5.5 以 82.7% 的准确率创下该基准的当前最佳成绩。Expert-SWE 是 OpenAI 内部的前沿评测,评估中位估计完成时间约 20 小时的长周期编码任务,GPT-5.5 在这一基准上的提升尤为明显。
值得注意的是,GPT-5.5 在所有三项编码评测中的得分均高于 GPT-5.4,同时 Token 消耗更少。这意味着在 Codex 的实际使用中,开发者不仅能获得更高质量的代码,还能感受到更低的 Token 成本。
Every 创始人兼 CEO Dan Shipper 对 GPT-5.5 的编码能力给出了极高评价,称其为"我使用过的第一个具有严肃概念清晰度(conceptual clarity)的编码模型"。在一次测试中,他将一个需要团队高级工程师花数天修复的线上问题回溯到问题状态,让 GPT-5.5 和 GPT-5.4 分别处理:GPT-5.4 未能完成,GPT-5.5 成功产出了与工程师最终方案相当的代码重写。
Cursor 联合创始人兼 CEO Michael Truell 评价道:「GPT-5.5 比 GPT-5.4 明显更聪明、更持久,编码性能更强,工具使用更可靠。它能在显著更长的时间内保持任务专注而不提前中止——这对于用户委托给 Cursor 的复杂长时运行工作最为关键。」
一位 NVIDIA 工程师甚至表示:「失去 GPT-5.5 的访问权限,就像我被截肢了一样。」
2.2 专业知识工作
在模拟真实职业场景的知识工作评测中,GPT-5.5 同样表现出色:
| 评测基准 | GPT-5.5 | GPT-5.4 | Claude Opus 4.7 | Gemini 3.1 Pro |
|---|---|---|---|---|
| GDPval(胜率或平局) | 84.9% | 83.0% | 80.3% | 67.3% |
| OSWorld-Verified | 78.7% | 75.0% | 78.0% | — |
| FinanceAgent v1.1 | 60.0% | 56.0% | 64.4% | 59.7% |
| 投行建模任务(内部) | 88.5% | 87.3% | — | — |
| OfficeQA Pro | 54.1% | 53.2% | 43.6% | 18.1% |
GDPval 评测覆盖 44 个职业类别的专业知识工作,GPT-5.5 以 84.9% 的胜率或平局率位列参评模型前列。在投行建模任务中,GPT-5.5 达到 88.5% 的准确率,已经接近初级分析师的专业水准。
OpenAI 内部团队已经在日常工作中大量使用 GPT-5.5:超过 85% 的 OpenAI 员工每周使用 Codex,涵盖软件工程、财务、通信、营销、数据科学和产品管理等多个职能。具体案例包括:Comms 团队用 GPT-5.5 分析了六个月的演讲邀约数据,构建了评分和风险框架,并搭建了自动化 Slack Agent;Finance 团队用它审查了 24,771 份 K-1 税表(共 71,637 页),将处理周期缩短了两周;市场团队员工将每周商业报告的生成流程自动化,每周节省了 5-10 小时。
2.3 计算机使用与视觉
| 评测基准 | GPT-5.5 | GPT-5.4 | Claude Opus 4.7 | Gemini 3.1 Pro |
|---|---|---|---|---|
| OSWorld-Verified | 78.7% | 75.0% | 78.0% | — |
| MMMU Pro(无工具) | 81.2% | 81.2% | — | 80.5% |
| MMMU Pro(工具辅助) | 83.2% | 82.1% | — | — |
GPT-5.5 在 OSWorld-Verified 评测中达到 78.7%,这一基准评估模型在真实计算机环境中自主操作的能力。该成绩在当前公开结果的模型中处于领先位置。
2.4 工具调用与信息检索
| 评测基准 | GPT-5.5 | GPT-5.4 | Claude Opus 4.7 | Gemini 3.1 Pro |
|---|---|---|---|---|
| BrowseComp | 84.4% | 82.7% | 79.3% | 85.9% |
| MCP Atlas | 75.3% | 70.6% | 79.1% | 78.2% |
| Toolathlon | 55.6% | 54.6% | — | 48.8% |
| Tau2-bench Telecom(原始提示词) | 98.0% | 92.8% | — | — |
Tau2-bench Telecom 评测复杂客服工作流,GPT-5.5 在不使用提示词调优的情况下达到 98.0%,展现出极高的任务完成可靠性。MCP Atlas 评测中 GPT-5.5 相比 GPT-5.4 提升了 8.1 个百分点,大幅缩小了与 Claude Opus 4.7 的差距。
2.5 学术研究与数学推理
| 评测基准 | GPT-5.5 | GPT-5.4 | Claude Opus 4.7 | Gemini 3.1 Pro |
|---|---|---|---|---|
| FrontierMath Tier 1–3 | 51.7% | 47.6% | 43.8% | 36.9% |
| FrontierMath Tier 4 | 35.4% | 27.1% | 22.9% | 16.7% |
| GPQA Diamond | 93.6% | 92.8% | 94.4% | 94.3% |
| Humanity’s Last Exam(无工具) | 41.4% | 39.8% | 46.9% | 44.4% |
| Humanity’s Last Exam(工具辅助) | 52.2% | 52.1% | 54.7% | 51.4% |
| GeneBench | 25.0% | 19.0% | — | — |
| BixBench | 80.5% | 74.0% | — | — |
在数学推理领域,GPT-5.5 的提升值得特别关注:FrontierMath Tier 4(最难题型)上,GPT-5.5 从 GPT-5.4 的 27.1% 提升至 35.4%,提升了 8.3 个百分点,与 Gemini 3.1 Pro 和 Claude Opus 4.7 的领先优势进一步拉大。
但需要注意,在不依赖工具的纯学术推理评测(Humanity’s Last Exam 无工具条件)上,GPT-5.5 的表现(43.1%,Pro 版本)仍低于 Claude Opus 4.7 的 46.9%。这说明 GPT-5.5 的能力分布具有明显的结构性特征:更擅长"做事"而非"独立思考复杂问题"。
2.6 网络安全
| 评测基准 | GPT-5.5 | GPT-5.4 | Claude Opus 4.7 | Gemini 3.1 Pro |
|---|---|---|---|---|
| Capture-the-Flags(内部) | 88.1% | 83.7% | — | — |
| CyberGym | 81.8% | 79.0% | 73.1% | — |
2.7 长上下文
| 评测基准 | GPT-5.5 | GPT-5.4 | Claude Opus 4.6 |
|---|---|---|---|
| OpenAI MRCR v2 8-needle 512K-1M | 74.0% | 36.6% | — |
| Graphwalks BFS 1mil f1 | 45.4% | 9.4% | 41.2% |
| Graphwalks parents 1mil f1 | 58.5% | 44.4% | 72.0% |
在长上下文领域,GPT-5.5 相比 GPT-5.4 的提升堪称惊人:512K-1M 上下文区间的多检索needle评测从 36.6% 跃升至 74.0%,提升了超过 1 倍;Graphwalks BFS 1mil 评测从 9.4% 提升至 45.4%,提升幅度高达 36 个百分点。
2.8 抽象推理
| 评测基准 | GPT-5.5 | GPT-5.4 | Claude Opus 4.7 | Gemini 3.1 Pro |
|---|---|---|---|---|
| ARC-AGI-1(Verified) | 95.0% | 93.7% | 93.5% | 98.0% |
| ARC-AGI-2(Verified) | 85.0% | 73.3% | 75.8% | 77.1% |
ARC-AGI-2 是刻意设计来抵抗评测数据饱和的通用推理基准,GPT-5.5 以 85.0% 的成绩大幅领先 GPT-5.4(73.3%)和 Claude Opus 4.7(75.8%),提升幅度达 11.7 个百分点。
三、Agent 能力深度解析:从回答问题到完成任务
GPT-5.5 最核心的升级方向是 Agent 能力——即 AI 自主规划、执行和验证复杂任务的综合能力。这不仅是 GPT-5.5 的宣传重点,也是 OpenAI 将其定义为"新一类智能"的核心依据。
3.1 代理式编码的实际意义
传统编程辅助工具的工作模式是:人类给出明确的指令,AI 完成对应的代码片段。这种模式在简单任务中效率很高,但面对复杂的、需要跨文件理解上下文的任务时,AI 往往中途"迷失",需要人类不断介入纠正。
GPT-5.5 改变了这一范式。OpenAI 的内部测试表明,GPT-5.5 能够:
- 在大型代码库中准确定位问题根源,理解故障的"形态"
- 预判修复方案对周围代码的影响范围
- 主动检查自己的输出是否满足预期
- 在一次执行中完成多步骤的重构或修复
MagicPath CEO Pietro Schirano 分享了一个典型案例:他让 GPT-5.5 处理一个包含数百个前端和重构变更的分支合并任务——目标分支本身也发生了大量变化。GPT-5.5 在约 20 分钟内独立完成了全部工作。Schirano 表示,这样的任务在之前通常需要手动处理数小时甚至更长时间。
3.2 计算机使用的工程落地
在 Codex 环境中,GPT-5.5 的计算机使用能力使其能够自主操作真实桌面环境。通过屏幕截图观察界面、模拟鼠标键盘操作、跨应用程序传递数据——这些过去只有人类才能完成的工作,现在可以部分委托给 GPT-5.5。
NVIDIA 企业 AI 副总裁 Justin Boitano 表示:「GPT-5.5 提供了执行密集型工作所需的持续性能。它在 NVIDIA GB200 NVL72 系统上构建和服务,使我们的团队能够通过自然语言提示端到端地交付功能特性,将调试时间从数天缩短到数小时,将复杂代码库中的数周实验转化为一夜之间的进展。这不仅仅是更快的编码——这是一种全新的工作方式,帮助人们以完全不同的速度运作。」
3.3 科学研究:从助手到合作者
GPT-5.5 在科学研究领域的进展超出了"信息检索"的范畴,开始向"科研合作者"的角色延伸。
最引人注目的案例是:一个内部版本的 GPT-5.5(配备定制推理框架)参与发现了一个关于**拉姆齐数(Ramsey Numbers)**的新数学证明。拉姆齐数是组合数学中的核心研究对象,该结果后来在 Lean 证明助手的形式化验证中得到确认。这一案例说明 GPT-5.5 的贡献已经超越了代码或解释的范畴,延伸到了真实的数学推理生成层面。
Jackson Laboratory 基因组医学研究所免疫学教授 Derya Unutmaz 使用 GPT-5.5 Pro 分析了一个包含 62 个样本、近 28,000 个基因的基因表达数据集,产出了一份包含关键洞察和研究问题的完整研究报告。他说这项工作原本需要他的团队花费数月时间。
Adam Mickiewicz University 数学助理教授 Bartosz Naskręcki 用 GPT-5.5 在 Codex 中从一个单行提示构建了一个代数几何应用,在 11 分钟内完成了两个二次曲面相交曲线的可视化,并将其转换为 Weierstrass 模型。他后续还扩展了应用,添加了更稳定的奇点可视化和可复用的精确系数。
四、安全防护:API 为何延后发布
GPT-5.5 的 API 发布比 ChatGPT 和 Codex 延后,这并非技术故障,而是 OpenAI 在安全审查方面做了更多工作。
OpenAI 将 GPT-5.5 的网络安全和生物/化学能力评估为 Preparedness Framework 中的 High 级别。虽然 GPT-5.5 没有达到 Critical 网络安全能力级别,但评估显示其网络安全能力相比 GPT-5.4 有明显提升。
具体的安全措施包括:
- 部署了业界领先的网络安全专项防护机制
- 针对更高风险活动、敏感网络请求和重复滥用行为设置了更严格的控制
- 与外部专家合作进行了数月的开发和迭代测试
- 面向符合条件的验证用户,通过 Trusted Access for Cyber 计划提供更宽松的网络安全能力访问
API 部署需要额外的安全防护验证,OpenAI 正在与合作伙伴对接大规模服务的安全需求。OpenAI 表示 API 版本"即将上线"。
五、定价与可用性
5.1 产品可用范围
GPT-5.5 目前已向以下用户群体开放:
- ChatGPT:Plus、Pro、Business、Enterprise 用户可用 GPT-5.5 Thinking;Pro、Business、Enterprise 用户额外可用 GPT-5.5 Pro
- Codex:Plus、Pro、Business、Enterprise、Edu、Go 计划用户可用,上下文窗口为 400K;提供 Fast 模式,Token 吐字速度提升 1.5 倍(价格为此前的 2.5 倍)
- API:即将上线
5.2 API 定价
GPT-5.5 的 API 定价为:
| 版本 | 输入价格 | 输出价格 |
|---|---|---|
| GPT-5.5 标准 | $5 / 百万 Token | $30 / 百万 Token |
| GPT-5.5 Pro | $30 / 百万 Token | $180 / 百万 Token |
| Batch / Flex | 标准价 × 50% | 标准价 × 50% |
| Priority | 标准价 × 250% | 标准价 × 250% |
对比参考:GPT-5.4 的 API 定价为输入 $2.50 / 输出 $15,GPT-5.5 标准版贵了约 1 倍。但 OpenAI 强调,完成同等任务的 Token 消耗显著减少,实际综合成本的增幅可能低于单价倍数——高吞吐量场景需要用户根据自身业务数据做具体评估。
上下文窗口方面,API 端支持最高 100 万 Token(1M context),但这是需要显式配置的实验性特性,默认情况下走标准窗口。开发者接入时需要留意这一配置差异。
5.3 Prompt 缓存定价
| 有效期 | 写入价格 | 读取价格 |
|---|---|---|
| 5 分钟 | $6.25 / 百万 Token | $0.50 / 百万 Token |
| 1 小时 | $6.25 / 百万 Token | $0.50 / 百万 Token |
六、GPT-5.5 vs GPT-5.4:核心差异一览
对于正在使用 GPT-5.4 的用户而言,是否升级到 GPT-5.5 取决于具体的使用场景。以下是关键差异的快速总结:
| 维度 | GPT-5.4 | GPT-5.5 |
|---|---|---|
| Terminal-Bench 2.0 | 75.1% | 82.7%(+7.6pp) |
| Expert-SWE | 68.5% | 73.1%(+4.6pp) |
| GDPval | 83.0% | 84.9%(+1.9pp) |
| ARC-AGI-2 | 73.3% | 85.0%(+11.7pp) |
| FrontierMath Tier 4 | 27.1% | 35.4%(+8.3pp) |
| MRCR 512K-1M | 36.6% | 74.0%(+37.4pp) |
| API 输入价格 | $2.50/M | $5.00/M(+100%) |
| API 输出价格 | $15/M | $30/M(+100%) |
推荐升级的场景:以编程和软件开发为主要用例;在 Codex 中处理复杂多步骤任务;需要处理超长上下文的文档分析;追求更少 Token 消耗完成同等任务;自动化客服或业务流程。
可以观望的场景:以简单问答和文案写作为主;对成本高度敏感;非实时性批处理(可考虑 Batch 模式降低费用)。
七、技术架构:效率不妥协
GPT-5.5 能在更强大但保持 GPT-5.4 延迟水平的关键原因在于基础设施的联合优化。
GPT-5.5 是与 NVIDIA 联合设计、训练和服务的产品,运行在 GB200 和 GB300 NVL72 系统上。OpenAI 在 GPT-5.5 的开发过程中大量使用 Codex 和 GPT-5.5 本身来优化底层基础设施——即"模型帮助改善了服务于它自己的基础设施"。
其中一个具体案例是负载均衡和分区启发式算法的改进:此前,OpenAI 将请求在加速器上分割为固定数量的块,以平衡跨计算核心的工作负载。但预定义的静态块数对所有流量模式并非最优。Codex 分析了数周的生产流量模式,写出了自定义启发式算法来最优地分区和平衡工作负载,将 Token 生成速度提升了 20% 以上。
这一改进直接解释了为何 GPT-5.5 能在更高智能水平下维持与 GPT-5.4 同等的延迟——效率不是事后优化,而是从模型设计阶段就内置的目标。
八、总结与展望
GPT-5.5 是一次以** Agent 执行能力为核心**的定向升级,而非全面碾压式的代际跃迁。它的能力分布有清晰的结构性特征:在需要工具调用、自主规划和长周期执行的场景中大幅领先,在纯学术推理场景中与 Claude Opus 4.7 各有胜负。
对于正在构建 Agent 工作流的开发者,GPT-5.5 适合作为执行层的核心模型来使用。对于追求极致推理深度的场景(如前沿数学证明),可以关注 Pro 版本的表现。对于普通知识工作者,GDPval 84.9% 的成绩意味着 GPT-5.5 已经在大多数专业知识任务上达到了接近人类的产出水准。
API 版本的发布时间和配套安全策略,是接下来最值得关注的动态。OpenAI 在 API 层面的访问控制边界如何设定,将直接影响 GPT-5.5 在开发者生态中的渗透速度。持续关注 OpenAI 的官方公告,是在 2026 年的 AI 模型快速迭代周期中保持效率的关键。
本文数据来源:OpenAI 官方公告「Introducing GPT-5.5」(2026年4月23日)、OpenAI GPT-5.5 System Card、Artificial Analysis Intelligence Index。