旗舰模型 benchmark 数据
本章聚焦大语言模型,覆盖七个能力维度:推理与学术知识、代码、工具使用、事实性、长文本、图像理解以及视频理解。
数据选取遵循两个原则:各榜单尽量覆盖四家厂商,优先采用最新旗舰模型的分数,但厂商间模型版本未必能完全对齐(受数据缺失限制);优先未饱和、仍有区分度的榜单。
推理与学术知识
GPQA Diamond
研究生级科学推理多项选择题(物理、化
学、生物),人类 PhD 专家基线约 69.7%。
HLE no tools
2500 道跨学科顶尖难题(数学、物理、人文
等),无工具,测模型参数化知识的上限。
代码
LiveCodeBench 综合
考察模型在真实编程题上的能力。
LiveCodeBench v6
LiveCodeBench 第六版测试集评分,评估模型
代码解题能力。
工具使用
MCPMark
接入真实 MCP 服务器的工具调用评测
(Pass@1),测模型与外部工具协作的
准确性。
Toolathlon
多应用、多步骤长链路工具使用基准,评估
真实Agent 任务的单次通过率(Pass@1)。
事实性
SimpleQA Verified
简短事实性问答,测模型陈述事实的准确率。
长文本
AA-LCR
长上下文理解与关键信息检索评测。
Graph Walks BFS(1M)
超长上下文图遍历推理任务,测模型在极长
文本下的结构性推理能力。
Graph Walks BFS(<128k)
标准长上下文(<128k tokens)图遍历推理
任务。
LongBench v2
综合性长文本理解基准,涵盖多类长文档
问答任务。
图像理解
MMMU-Pro(no tools)
多学科多模态理解题,无工具,考查模型
视觉与跨学科知识融合推理能力。
MathVision(no tools)
数学视觉推理基准,无工具,测模型对图表
与数学题的理解与求解能力。
视频理解
注:Claude 和 GPT 旗舰模型均不支持原生视频输入,故未纳入本维度评测。
LongVideoBench
长视频问答基准,测模型对长时序视觉
内容的理解与推理能力。
LVBench
超长视频理解基准,评估模型对视频中关键
信息的检索与推理能力。
1.benchmark 数据很难完全统一口径,这是评测生态的结构性现实
实际采集中,单一榜单几乎不可能凑齐四家当前旗舰——各厂商对榜单的选择不同,中美厂商常测的榜单重合度不高;第三方测评可信度较高,但覆盖面有限
,很难同时囊括四家最新旗舰;同一榜单还存在子集划分、模型推理强度可调等变量,进一步增加了横向对齐的难度。
此外,Benchmark 报告有营销嫌疑,部分厂商偏向于公布对自己有利的数据。跨厂商对比的口径统一只能近似、无法严格做到。
仅从 benchmark 分数上分析,可以得出以下结论:
2.Anthropic 与 OpenAI 整体领先,字节跳动、月之暗面有一定的差距
Anthropic 和 OpenAI 在绝大多数榜单上保持领先。字节跳动、月之暗面差距幅度因榜单而异,比如在 HLE no tools 上差距较大,
在 MMMU-Pro no tools 上差距较小,甚至在 MathVision no tools 上实现对 Anthropic 的双反超。
3.K2.6 综合表现优于 seed 2.0,且是开源模型逼近闭源旗舰的样本
K2.6 作为开源模型,在多个榜单上表现亮眼,且整体好于 seed 2.0。
4.字节在多模态理解上有优势
在四家同场的视觉推理榜单上,字节接近甚至反超第一梯队。原生视频理解,Anthropic / OpenAI 的最新语言模型不支持视频输入,seed 2.0 以微弱优势领先 K2.5。
此外,
5.前沿模型的代码评测已发生结构性转变
HumanEval、 MBPP 等传统 benchmark 因饱和而停止更新,无法再区分顶级模型。竞争转向 agentic 类评测(SWE-bench 等)——不再"解一道题",而是在真实代码库中完成工程任务,更贴近实际软件工程。