能力对比模型层

本项目将 app 能力的来源拆解为模型层与应用层，本章聚焦模型层。

本章节从三方面分析模型能力

旗舰模型基本信息：各厂商当前旗舰模型的发布时间、上下文窗口、开源政策等基础参数。
标准化测试集 benchmark ：固定的题目和标准化的评分，测量模型在特定维度（推理、代码、长文本等）的表现，分数多由厂商或第三方评测机构提供。
权威第三方盲测平台 LM Arena ：测量真实用户对模型表现的偏好，评估开放任务下模型的整体能力。

benchmark 和 LM Arena 榜单选取原则

用榜单评估模型层，需要尽力隔离 harness 的影响。模型层的评测分数必须尽量避免 harness（模型之外的执行框架：工具调用、任务状态维护等）影响，使模型的排名、分数差距来自于模型本身能力的差异。

控制 harness 变量：harness 要么为零，要么为常量

能在最小 harness 下测的，选最小 harness 版本：Benchmark 选 no tools 版本（GPQA Diamond、HLE、MMMU-Pro、MathVision），测参数化知识与原生推理；长文本类本身是纯输入输出。 Arena 选 Text / Vision / Document ，标准对话接口对能力评估透明；图像、视频生成类同理，无编排层。
若 harness 无法为零，让 harness 成为常量：工具调用类选 MCPMark、Toolathlon ，所有模型跑同一套最小 scaffold ； Agent Arena 对所有模型使用相同 harness 与工具集。差异归因于模型本体。
排除模型与 harness 捆绑、分差无法归因的榜单：Search Arena 测的是"模型 + 各家私有搜索系统"的整体，Code Arena 的分数随 harness 的不同而变化。

具体分析

点击下方卡片进入对应章节

旗舰模型基本信息 → 旗舰模型 benchmark 数据 → LM Arena →

能力对比 模型层

本章节从三方面分析模型能力

benchmark 和 LM Arena 榜单选取原则

具体分析

能力对比模型层