能力对比 模型层
本项目将 app 能力的来源拆解为模型层与应用层,本章聚焦模型层。
本章节从三方面分析模型能力
旗舰模型基本信息:各厂商当前旗舰模型的发布时间、上下文窗口、开源政策等基础参数。
标准化测试集 benchmark :固定的题目和标准化的评分,测量模型在特定维度(推理、代码、长文本等)的表现,分数多由厂商或第三方评测机构提供。
权威第三方盲测平台 LM Arena :测量真实用户对模型表现的偏好,评估开放任务下模型的整体能力。
benchmark 和 LM Arena 榜单选取原则
用榜单评估模型层,需要尽力隔离 harness 的影响。模型层的评测分数必须尽量避免 harness(模型之外的执行框架:工具调用、任务状态维护等)影响,使模型的排名、分数差距来自于模型本身能力的差异。
控制 harness 变量:harness 要么为零,要么为常量
- 能在最小 harness 下测的,选最小 harness 版本:Benchmark 选 no tools 版本(GPQA Diamond、HLE、MMMU-Pro、MathVision),测参数化知识与原生推理;长文本类本身是纯输入输出。 Arena 选 Text / Vision / Document ,标准对话接口对能力评估透明;图像、视频生成类同理,无编排层。
- 若 harness 无法为零,让 harness 成为常量:工具调用类选 MCPMark、Toolathlon ,所有模型跑同一套最小 scaffold ; Agent Arena 对所有模型使用相同 harness 与工具集。差异归因于模型本体。
- 排除模型与 harness 捆绑、分差无法归因的榜单:Search Arena 测的是"模型 + 各家私有搜索系统"的整体,Code Arena 的分数随 harness 的不同而变化。
具体分析
点击下方卡片进入对应章节