能力对比 模型层

本项目将 app 能力的来源拆解为模型层与应用层,本章聚焦模型层。

本章节从三方面分析模型能力

旗舰模型基本信息:各厂商当前旗舰模型的发布时间、上下文窗口、开源政策等基础参数。
标准化测试集 benchmark :固定的题目和标准化的评分,测量模型在特定维度(推理、代码、长文本等)的表现,分数多由厂商或第三方评测机构提供。
权威第三方盲测平台 LM Arena :测量真实用户对模型表现的偏好,评估开放任务下模型的整体能力。

benchmark 和 LM Arena 榜单选取原则

用榜单评估模型层,需要尽力隔离 harness 的影响。模型层的评测分数必须尽量避免 harness(模型之外的执行框架:工具调用、任务状态维护等)影响,使模型的排名、分数差距来自于模型本身能力的差异。

控制 harness 变量:harness 要么为零,要么为常量

具体分析

点击下方卡片进入对应章节