LM Arena
Benchmark 的三个固有缺陷:静态题库会被污染(测试题被当作训练数据,分数虚高);测的是"应试能力"而非日常表现;厂商可以针对性刷分。
因此,引入 LM Arena ——盲测 + 真实用户提问。无固定题库、难以针对性优化、直接反映人类偏好,是目前规模最大的人类偏好评测,也是业界评价模型的重要参照。但偏好不完全等于能力,Benchmark 和 LM Arena 形成互补关系。
Agent
Agent Arena
对 AI 模型编排工具完成现实智能体任务的能力进行综合排名。
上榜厂商数:9 | 上榜模型数:21
| 厂商排名 | 厂商 | 旗舰模型 | 旗舰模型排名 |
|---|---|---|---|
| 1 | Anthropic | Opus 4.7 | 1 |
| 2 | OpenAI | GPT 5.5 | 3 |
| 5 | 月之暗面 | K2.6 | 11 |
| — | 字节跳动 | 未收录 | — |
Chat
Text Arena — Overall
对多家 AI 模型在数学、编程、创意写作等开放性文本任务上的综合表现进行排名。
上榜厂商数:54 | 上榜模型数:365
| 厂商排名 | 厂商 | 旗舰模型 | 旗舰模型排名 |
|---|---|---|---|
| 1 | Anthropic | Opus 4.6 | 1 |
| 4 | OpenAI | GPT 5.5 | 9 |
| 10 | 月之暗面 | K2.6 | 30 |
| 12 | 字节跳动 | Seed 2.0 Pro | 37 |
Vision Arena — Overall
对具备视觉理解能力的多模态 AI 模型进行综合排名,评测其对图像输入的推理能力。
上榜厂商数:24 | 上榜模型数:130
| 厂商排名 | 厂商 | 旗舰模型 | 旗舰模型排名 |
|---|---|---|---|
| 1 | Anthropic | Opus 4.7 | 1 |
| 4 | OpenAI | GPT 5.5 | 8 |
| 6 | 月之暗面 | K2.6 | 19 |
| 7 | 字节跳动 | Seed 2.0 Pro | 21 |
Document Arena — Overall
对 AI 模型在文档分析与长文本推理任务上的综合表现进行排名。
上榜厂商数:8 | 上榜模型数:28
| 厂商排名 | 厂商 | 旗舰模型 | 旗舰模型排名 |
|---|---|---|---|
| 1 | Anthropic | Opus 4.6 | 1 |
| 2 | OpenAI | GPT 5.5 | 5 |
| 3 | 月之暗面 | K2.6 | 12 |
| — | 字节跳动 | 未收录 | — |
Image
Text-to-Image Arena — Overall
对文生图 AI 模型的整体生成质量进行综合排名。
上榜厂商数:20 | 上榜模型数:70
| 厂商排名 | 厂商 | 旗舰模型 | 旗舰模型排名 |
|---|---|---|---|
| 1 | OpenAI | GPT image 2 | 1 |
| 9 | 字节跳动 | Seedream 4.5 | 18 |
| — | Anthropic | 未收录 | — |
| — | 月之暗面 | 未收录 | — |
Image Edit Arena — Single-Image Edit
对图像编辑 AI 模型在单张图片编辑任务上的综合表现进行排名。
上榜厂商数:13 | 上榜模型数:49
| 厂商排名 | 厂商 | 旗舰模型 | 旗舰模型排名 |
|---|---|---|---|
| 1 | OpenAI | GPT Image 2 | 1 |
| 8 | 字节跳动 | Seedream 4.5 | 15 |
| — | Anthropic | 未收录 | — |
| — | 月之暗面 | 未收录 | — |
Video
Text-to-Video Arena — Overall
对文生视频 AI 模型的整体生成质量进行综合排名。
上榜厂商数:17 | 上榜模型数:40
| 厂商排名 | 厂商 | 旗舰模型 | 旗舰模型排名 |
|---|---|---|---|
| 1 | 字节跳动 | Seedance 2.0 | 1 |
| 5 | OpenAI | sora 2 | 5 |
| — | Anthropic | 未收录 | — |
| — | 月之暗面 | 未收录 | — |
Image-to-Video Arena — Overall
对图生视频 AI 模型的整体生成质量进行综合排名。
上榜厂商数:15 | 上榜模型数:40
| 厂商排名 | 厂商 | 旗舰模型 | 旗舰模型排名 |
|---|---|---|---|
| 1 | 字节跳动 | Seedance 2.0 | 1 |
| — | OpenAI | 未收录 | — |
| — | Anthropic | 未收录 | — |
| — | 月之暗面 | 未收录 | — |
Video Edit Arena — Overall
对视频编辑 AI 模型的整体表现进行综合排名。
上榜厂商数:5 | 上榜模型数:6
| 厂商排名 | 厂商 | 旗舰模型 | 旗舰模型排名 |
|---|---|---|---|
| 1 | 字节跳动 | Seedance 2.0 | 1 |
| — | OpenAI | 未收录 | — |
| — | Anthropic | 未收录 | — |
| — | 月之暗面 | 未收录 | — |
1. Anthropic 的模型最为出众
在所有收录其模型的榜单(Agent / Text / Vision / Document)中,厂商排名和模型排名均为第一。
2. OpenAI 同处第一梯队,图像生成优势突出
语言模型类榜单全部收录,厂商排名均在前四(Agent / Document 第 2,Text / Vision 第 4),仅次于 Anthropic;图像生成则双榜第一。
3. 月之暗面稳居第二梯队
语言模型类四榜全部收录,厂商排名稳定在 3-10,是国内两家中第三方评测存在感更强的一家。
4. 字节统治视频生成,但语言模型存在感最弱
文生视频、图生视频、视频编辑三榜厂商排名均第一;而 Agent、Document Arena 均未收录其模型,与视频侧的强势形成鲜明反差。
5. Arena 与 benchmark 互为校验,梯队结论成立
LM Arena 得出的梯队结构(Anthropic / OpenAI 第一梯队、月之暗面第二、字节稍靠后)与 benchmark 结论一致。