LM Arena

Benchmark 的三个固有缺陷:静态题库会被污染(测试题被当作训练数据,分数虚高);测的是"应试能力"而非日常表现;厂商可以针对性刷分。

因此,引入 LM Arena ——盲测 + 真实用户提问。无固定题库、难以针对性优化、直接反映人类偏好,是目前规模最大的人类偏好评测,也是业界评价模型的重要参照。但偏好不完全等于能力,Benchmark 和 LM Arena 形成互补关系。

Agent

Agent Arena

对 AI 模型编排工具完成现实智能体任务的能力进行综合排名。

上榜厂商数:9 | 上榜模型数:21

厂商排名 厂商 旗舰模型 旗舰模型排名
1 Anthropic Opus 4.7 1
2 OpenAI GPT 5.5 3
5 月之暗面 K2.6 11
字节跳动 未收录

Chat

Text Arena — Overall

对多家 AI 模型在数学、编程、创意写作等开放性文本任务上的综合表现进行排名。

上榜厂商数:54 | 上榜模型数:365

厂商排名 厂商 旗舰模型 旗舰模型排名
1 Anthropic Opus 4.6 1
4 OpenAI GPT 5.5 9
10 月之暗面 K2.6 30
12 字节跳动 Seed 2.0 Pro 37

Vision Arena — Overall

对具备视觉理解能力的多模态 AI 模型进行综合排名,评测其对图像输入的推理能力。

上榜厂商数:24 | 上榜模型数:130

厂商排名 厂商 旗舰模型 旗舰模型排名
1 Anthropic Opus 4.7 1
4 OpenAI GPT 5.5 8
6 月之暗面 K2.6 19
7 字节跳动 Seed 2.0 Pro 21

Document Arena — Overall

对 AI 模型在文档分析与长文本推理任务上的综合表现进行排名。

上榜厂商数:8 | 上榜模型数:28

厂商排名 厂商 旗舰模型 旗舰模型排名
1 Anthropic Opus 4.6 1
2 OpenAI GPT 5.5 5
3 月之暗面 K2.6 12
字节跳动 未收录

Image

Text-to-Image Arena — Overall

对文生图 AI 模型的整体生成质量进行综合排名。

上榜厂商数:20 | 上榜模型数:70

厂商排名 厂商 旗舰模型 旗舰模型排名
1 OpenAI GPT image 2 1
9 字节跳动 Seedream 4.5 18
Anthropic 未收录
月之暗面 未收录

Image Edit Arena — Single-Image Edit

对图像编辑 AI 模型在单张图片编辑任务上的综合表现进行排名。

上榜厂商数:13 | 上榜模型数:49

厂商排名 厂商 旗舰模型 旗舰模型排名
1 OpenAI GPT Image 2 1
8 字节跳动 Seedream 4.5 15
Anthropic 未收录
月之暗面 未收录

Video

Text-to-Video Arena — Overall

对文生视频 AI 模型的整体生成质量进行综合排名。

上榜厂商数:17 | 上榜模型数:40

厂商排名 厂商 旗舰模型 旗舰模型排名
1 字节跳动 Seedance 2.0 1
5 OpenAI sora 2 5
Anthropic 未收录
月之暗面 未收录

Image-to-Video Arena — Overall

对图生视频 AI 模型的整体生成质量进行综合排名。

上榜厂商数:15 | 上榜模型数:40

厂商排名 厂商 旗舰模型 旗舰模型排名
1 字节跳动 Seedance 2.0 1
OpenAI 未收录
Anthropic 未收录
月之暗面 未收录

Video Edit Arena — Overall

对视频编辑 AI 模型的整体表现进行综合排名。

上榜厂商数:5 | 上榜模型数:6

厂商排名 厂商 旗舰模型 旗舰模型排名
1 字节跳动 Seedance 2.0 1
OpenAI 未收录
Anthropic 未收录
月之暗面 未收录

1. Anthropic 的模型最为出众
在所有收录其模型的榜单(Agent / Text / Vision / Document)中,厂商排名和模型排名均为第一。

2. OpenAI 同处第一梯队,图像生成优势突出
语言模型类榜单全部收录,厂商排名均在前四(Agent / Document 第 2,Text / Vision 第 4),仅次于 Anthropic;图像生成则双榜第一。

3. 月之暗面稳居第二梯队
语言模型类四榜全部收录,厂商排名稳定在 3-10,是国内两家中第三方评测存在感更强的一家。

4. 字节统治视频生成,但语言模型存在感最弱
文生视频、图生视频、视频编辑三榜厂商排名均第一;而 Agent、Document Arena 均未收录其模型,与视频侧的强势形成鲜明反差。

5. Arena 与 benchmark 互为校验,梯队结论成立
LM Arena 得出的梯队结构(Anthropic / OpenAI 第一梯队、月之暗面第二、字节稍靠后)与 benchmark 结论一致。