旗舰模型 benchmark 数据

本章聚焦大语言模型，覆盖七个能力维度：推理与学术知识、代码、工具使用、事实性、长文本、图像理解以及视频理解。

数据选取遵循两个原则：各榜单尽量覆盖四家厂商，优先采用最新旗舰模型的分数，但厂商间模型版本未必能完全对齐（受数据缺失限制）；优先未饱和、仍有区分度的榜单。

推理与学术知识

GPQA Diamond

研究生级科学推理多项选择题（物理、化
学、生物），人类 PhD 专家基线约 69.7%。

94.2%

Opus 4.7

93.6%

Opus 4.8

93.6%

GPT 5.5

92.8%

GPT 5.4

90.5%

K2.6

88.9%

Seed 2.0 Pro

HLE no tools

2500 道跨学科顶尖难题（数学、物理、人文
等），无工具，测模型参数化知识的上限。

49.8%

Opus 4.8

46.9%

Opus 4.7

41.1%

GPT 5.5

39.8%

GPT 5.4

34.7%

K2.6

32.4%

Seed 2.0 Pro*

代码

LiveCodeBench 综合

考察模型在真实编程题上的能力。

85%

K2.5

84%

GPT 5.4

76%

Opus 4.6

LiveCodeBench v6

LiveCodeBench 第六版测试集评分，评估模型
代码解题能力。

89.6%

K2.6

87.8%

Seed 2.0 Pro

85.0%

K2.5

工具使用

MCPMark

接入真实 MCP 服务器的工具调用评测
（Pass@1），测模型与外部工具协作的
准确性。

62.5%

GPT 5.4

56.7%

Opus 4.6

55.9%

K2.6

54.7%

Seed 2.0 Pro

Toolathlon

多应用、多步骤长链路工具使用基准，评估
真实Agent 任务的单次通过率（Pass@1）。

59.9%

Opus 4.8

55.6%

GPT 5.5

54.6%

GPT 5.4

52.8%

Opus 4.7

50.0%

K2.6

事实性

SimpleQA Verified

简短事实性问答，测模型陈述事实的准确率。

63.1%

GPT 5.5

50.6%

Opus 4.7

44.8%

GPT 5.4

44.5%

Opus 4.8

36.0%

Seed 2.0 Pro

33.9%

K2.5

长文本

AA-LCR

长上下文理解与关键信息检索评测。

74.3%

GPT 5.5

74.0%

GPT 5.4

70.3%

Opus 4.7

69.7%

K2.6

67.7%

Opus 4.8

65.3%

Seed Code

Graph Walks BFS（1M）

超长上下文图遍历推理任务，测模型在极长
文本下的结构性推理能力。

68.1%

Opus 4.8

45.4%

GPT 5.4

Graph Walks BFS（<128k）

标准长上下文（<128k tokens）图遍历推理
任务。

93.0%

GPT 5.4

68.9%

Seed 2.0 Pro

LongBench v2

综合性长文本理解基准，涵盖多类长文档
问答任务。

64.4%

Opus 4.5

63.8%

Seed 2.0 Pro

61.0%

K2.5

图像理解

MMMU-Pro（no tools）

多学科多模态理解题，无工具，考查模型
视觉与跨学科知识融合推理能力。

81.2%

GPT 5.5

81.2%

GPT 5.4

79.4%

K2.6

78.2%

Seed 2.0 Pro

73.9%

Opus 4.6

MathVision（no tools）

数学视觉推理基准，无工具，测模型对图表
与数学题的理解与求解能力。

92.0%

GPT 5.4

88.8%

Seed 2.0 Pro

87.4%

K2.6

71.2%

Opus 4.6

视频理解

注：Claude 和 GPT 旗舰模型均不支持原生视频输入，故未纳入本维度评测。

LongVideoBench

长视频问答基准，测模型对长时序视觉
内容的理解与推理能力。

80.3%

Seed 2.0 Pro

79.8%

K2.5

LVBench

超长视频理解基准，评估模型对视频中关键
信息的检索与推理能力。

76.4%

Seed 2.0 Pro

75.9%

K2.5

1.benchmark 数据很难完全统一口径，这是评测生态的结构性现实
实际采集中，单一榜单几乎不可能凑齐四家当前旗舰——各厂商对榜单的选择不同，中美厂商常测的榜单重合度不高；第三方测评可信度较高，但覆盖面有限，很难同时囊括四家最新旗舰；同一榜单还存在子集划分、模型推理强度可调等变量，进一步增加了横向对齐的难度。

此外，Benchmark 报告有营销嫌疑，部分厂商偏向于公布对自己有利的数据。跨厂商对比的口径统一只能近似、无法严格做到。

仅从 benchmark 分数上分析，可以得出以下结论：

2.Anthropic 与 OpenAI 整体领先，字节跳动、月之暗面有一定的差距
Anthropic 和 OpenAI 在绝大多数榜单上保持领先。字节跳动、月之暗面差距幅度因榜单而异，比如在 HLE no tools 上差距较大，在 MMMU-Pro no tools 上差距较小，甚至在 MathVision no tools 上实现对 Anthropic 的双反超。

3.K2.6 综合表现优于 seed 2.0，且是开源模型逼近闭源旗舰的样本
K2.6 作为开源模型，在多个榜单上表现亮眼，且整体好于 seed 2.0。

4.字节在多模态理解上有优势
在四家同场的视觉推理榜单上，字节接近甚至反超第一梯队。原生视频理解，Anthropic / OpenAI 的最新语言模型不支持视频输入，seed 2.0 以微弱优势领先 K2.5。

此外，

5.前沿模型的代码评测已发生结构性转变
HumanEval、 MBPP 等传统 benchmark 因饱和而停止更新，无法再区分顶级模型。竞争转向 agentic 类评测（SWE-bench 等）——不再"解一道题"，而是在真实代码库中完成工程任务，更贴近实际软件工程。