LM Arena

Benchmark 的三个固有缺陷：静态题库会被污染（测试题被当作训练数据，分数虚高）；测的是"应试能力"而非日常表现；厂商可以针对性刷分。

因此，引入 LM Arena ——盲测 + 真实用户提问。无固定题库、难以针对性优化、直接反映人类偏好，是目前规模最大的人类偏好评测，也是业界评价模型的重要参照。但偏好不完全等于能力，Benchmark 和 LM Arena 形成互补关系。

Agent

对 AI 模型编排工具完成现实智能体任务的能力进行综合排名。

上榜厂商数：9 ｜上榜模型数：21

厂商排名	厂商	旗舰模型	旗舰模型排名
1	Anthropic	Opus 4.7	1
2	OpenAI	GPT 5.5	3
5	月之暗面	K2.6	11
—	字节跳动	未收录	—

对多家 AI 模型在数学、编程、创意写作等开放性文本任务上的综合表现进行排名。

上榜厂商数：54 ｜上榜模型数：365

厂商排名	厂商	旗舰模型	旗舰模型排名
1	Anthropic	Opus 4.6	1
4	OpenAI	GPT 5.5	9
10	月之暗面	K2.6	30
12	字节跳动	Seed 2.0 Pro	37

对具备视觉理解能力的多模态 AI 模型进行综合排名，评测其对图像输入的推理能力。

上榜厂商数：24 ｜上榜模型数：130

厂商排名	厂商	旗舰模型	旗舰模型排名
1	Anthropic	Opus 4.7	1
4	OpenAI	GPT 5.5	8
6	月之暗面	K2.6	19
7	字节跳动	Seed 2.0 Pro	21

对 AI 模型在文档分析与长文本推理任务上的综合表现进行排名。

上榜厂商数：8 ｜上榜模型数：28

厂商排名	厂商	旗舰模型	旗舰模型排名
1	Anthropic	Opus 4.6	1
2	OpenAI	GPT 5.5	5
3	月之暗面	K2.6	12
—	字节跳动	未收录	—

对文生图 AI 模型的整体生成质量进行综合排名。

上榜厂商数：20 ｜上榜模型数：70

厂商排名	厂商	旗舰模型	旗舰模型排名
1	OpenAI	GPT image 2	1
9	字节跳动	Seedream 4.5	18
—	Anthropic	未收录	—
—	月之暗面	未收录	—

对图像编辑 AI 模型在单张图片编辑任务上的综合表现进行排名。

上榜厂商数：13 ｜上榜模型数：49

厂商排名	厂商	旗舰模型	旗舰模型排名
1	OpenAI	GPT Image 2	1
8	字节跳动	Seedream 4.5	15
—	Anthropic	未收录	—
—	月之暗面	未收录	—

对文生视频 AI 模型的整体生成质量进行综合排名。

上榜厂商数：17 ｜上榜模型数：40

厂商排名	厂商	旗舰模型	旗舰模型排名
1	字节跳动	Seedance 2.0	1
5	OpenAI	sora 2	5
—	Anthropic	未收录	—
—	月之暗面	未收录	—

对图生视频 AI 模型的整体生成质量进行综合排名。

上榜厂商数：15 ｜上榜模型数：40

厂商排名	厂商	旗舰模型	旗舰模型排名
1	字节跳动	Seedance 2.0	1
—	OpenAI	未收录	—
—	Anthropic	未收录	—
—	月之暗面	未收录	—

对视频编辑 AI 模型的整体表现进行综合排名。

上榜厂商数：5 ｜上榜模型数：6

厂商排名	厂商	旗舰模型	旗舰模型排名
1	字节跳动	Seedance 2.0	1
—	OpenAI	未收录	—
—	Anthropic	未收录	—
—	月之暗面	未收录	—

1. Anthropic 的模型最为出众
在所有收录其模型的榜单（Agent / Text / Vision / Document）中，厂商排名和模型排名均为第一。

2. OpenAI 同处第一梯队，图像生成优势突出
语言模型类榜单全部收录，厂商排名均在前四（Agent / Document 第 2，Text / Vision 第 4），仅次于 Anthropic；图像生成则双榜第一。

3. 月之暗面稳居第二梯队
语言模型类四榜全部收录，厂商排名稳定在 3-10，是国内两家中第三方评测存在感更强的一家。

4. 字节统治视频生成，但语言模型存在感最弱
文生视频、图生视频、视频编辑三榜厂商排名均第一；而 Agent、Document Arena 均未收录其模型，与视频侧的强势形成鲜明反差。

5. Arena 与 benchmark 互为校验，梯队结论成立
LM Arena 得出的梯队结构（Anthropic / OpenAI 第一梯队、月之暗面第二、字节稍靠后）与 benchmark 结论一致。