旗舰模型 benchmark 数据

本章聚焦大语言模型,覆盖七个能力维度:推理与学术知识、代码、工具使用、事实性、长文本、图像理解以及视频理解。

数据选取遵循两个原则:各榜单尽量覆盖四家厂商,优先采用最新旗舰模型的分数,但厂商间模型版本未必能完全对齐(受数据缺失限制);优先未饱和、仍有区分度的榜单。

推理与学术知识

GPQA Diamond

研究生级科学推理多项选择题(物理、化
学、生物),人类 PhD 专家基线约 69.7%。

94.2%
Opus 4.7
93.6%
Opus 4.8
93.6%
GPT 5.5
92.8%
GPT 5.4
90.5%
K2.6
88.9%
Seed 2.0 Pro

HLE no tools

2500 道跨学科顶尖难题(数学、物理、人文
等),无工具,测模型参数化知识的上限。

49.8%
Opus 4.8
46.9%
Opus 4.7
41.1%
GPT 5.5
39.8%
GPT 5.4
34.7%
K2.6
32.4%
Seed 2.0 Pro* text-only 模式,其他模型为 full 模式,
其 32.4% 分数可能略微偏高。

代码

LiveCodeBench 综合

考察模型在真实编程题上的能力。

85%
K2.5
84%
GPT 5.4
76%
Opus 4.6

LiveCodeBench v6

LiveCodeBench 第六版测试集评分,评估模型
代码解题能力。

89.6%
K2.6
87.8%
Seed 2.0 Pro
85.0%
K2.5

工具使用

MCPMark

接入真实 MCP 服务器的工具调用评测
(Pass@1),测模型与外部工具协作的
准确性。

62.5%
GPT 5.4
56.7%
Opus 4.6
55.9%
K2.6
54.7%
Seed 2.0 Pro

Toolathlon

多应用、多步骤长链路工具使用基准,评估
真实Agent 任务的单次通过率(Pass@1)。

59.9%
Opus 4.8
55.6%
GPT 5.5
54.6%
GPT 5.4
52.8%
Opus 4.7
50.0%
K2.6

事实性

SimpleQA Verified

简短事实性问答,测模型陈述事实的准确率。

63.1%
GPT 5.5
50.6%
Opus 4.7
44.8%
GPT 5.4
44.5%
Opus 4.8
36.0%
Seed 2.0 Pro
33.9%
K2.5

长文本

AA-LCR

长上下文理解与关键信息检索评测。

74.3%
GPT 5.5
74.0%
GPT 5.4
70.3%
Opus 4.7
69.7%
K2.6
67.7%
Opus 4.8
65.3%
Seed Code

Graph Walks BFS(1M)

超长上下文图遍历推理任务,测模型在极长
文本下的结构性推理能力。

68.1%
Opus 4.8
45.4%
GPT 5.4

Graph Walks BFS(<128k)

标准长上下文(<128k tokens)图遍历推理
任务。

93.0%
GPT 5.4
68.9%
Seed 2.0 Pro

LongBench v2

综合性长文本理解基准,涵盖多类长文档
问答任务。

64.4%
Opus 4.5
63.8%
Seed 2.0 Pro
61.0%
K2.5

图像理解

MMMU-Pro(no tools)

多学科多模态理解题,无工具,考查模型
视觉与跨学科知识融合推理能力。

81.2%
GPT 5.5
81.2%
GPT 5.4
79.4%
K2.6
78.2%
Seed 2.0 Pro
73.9%
Opus 4.6

MathVision(no tools)

数学视觉推理基准,无工具,测模型对图表
与数学题的理解与求解能力。

92.0%
GPT 5.4
88.8%
Seed 2.0 Pro
87.4%
K2.6
71.2%
Opus 4.6

视频理解

:Claude 和 GPT 旗舰模型均不支持原生视频输入,故未纳入本维度评测。

LongVideoBench

长视频问答基准,测模型对长时序视觉
内容的理解与推理能力。

80.3%
Seed 2.0 Pro
79.8%
K2.5

LVBench

超长视频理解基准,评估模型对视频中关键
信息的检索与推理能力。

76.4%
Seed 2.0 Pro
75.9%
K2.5

1.benchmark 数据很难完全统一口径,这是评测生态的结构性现实
实际采集中,单一榜单几乎不可能凑齐四家当前旗舰——各厂商对榜单的选择不同,中美厂商常测的榜单重合度不高;第三方测评可信度较高,但覆盖面有限 ,很难同时囊括四家最新旗舰;同一榜单还存在子集划分、模型推理强度可调等变量,进一步增加了横向对齐的难度。

此外,Benchmark 报告有营销嫌疑,部分厂商偏向于公布对自己有利的数据。跨厂商对比的口径统一只能近似、无法严格做到。



仅从 benchmark 分数上分析,可以得出以下结论:

2.Anthropic 与 OpenAI 整体领先,字节跳动、月之暗面有一定的差距
Anthropic 和 OpenAI 在绝大多数榜单上保持领先。字节跳动、月之暗面差距幅度因榜单而异,比如在 HLE no tools 上差距较大, 在 MMMU-Pro no tools 上差距较小,甚至在 MathVision no tools 上实现对 Anthropic 的双反超。

3.K2.6 综合表现优于 seed 2.0,且是开源模型逼近闭源旗舰的样本
K2.6 作为开源模型,在多个榜单上表现亮眼,且整体好于 seed 2.0。

4.字节在多模态理解上有优势
在四家同场的视觉推理榜单上,字节接近甚至反超第一梯队。原生视频理解,Anthropic / OpenAI 的最新语言模型不支持视频输入,seed 2.0 以微弱优势领先 K2.5。



此外,

5.前沿模型的代码评测已发生结构性转变
HumanEval、 MBPP 等传统 benchmark 因饱和而停止更新,无法再区分顶级模型。竞争转向 agentic 类评测(SWE-bench 等)——不再"解一道题",而是在真实代码库中完成工程任务,更贴近实际软件工程。