评测类型

eval_752 支持多种题目格式。每种类型决定了数据集中题目的结构和评分方式。

一览

类型测试内容评分方式典型基准
单选题从列表中选一个正确答案精确匹配 (A/B/C/D)MMLU, ARC, HellaSwag
多选题选出所有正确答案部分得分 (集合 F1)自定义知识测试
自由文本开放式文本生成LLM 裁判或正则写作、解释类任务
代码生成编写可运行的代码测试执行 (通过/失败)HumanEval, MBPP
对战 (Arena)比较两个模型的回答Bradley-Terry / Elo 排名质量对比

单选题 (MCQ Single)

最常见的类型。模型看到一个问题和一组选项 (A/B/C/D),评分器提取模型的选择并与参考答案比对。

适用场景: MMLU、ARC、HellaSwag 等标准基准——任何只有一个正确答案的固定选项集。

评分原理: 评分器从模型输出中提取字母选项,与参考答案比对。能处理常见格式变化,如「答案是 B」或「(B)」。

多选题 (MCQ Multiple)

和单选题类似,但可以有多个正确答案。评分根据正确选中的数量给予部分得分。

适用场景: 多个选项同时正确的知识测试。标准基准中较少见,但在自定义评测中很有用。

评分原理: 评分器提取所有选中的字母,计算与参考答案集合的 F1 分数。选对 3 个中的 2 个比只对 1 个分数高,但选错也会扣分。

自由文本 (Freeform)

模型生成开放式回答。没有预定义选项。

适用场景: 创意写作、解释说明、摘要、翻译——任何「正确答案」不是固定字符串的任务。

评分原理: 两种方式:

  • 正则 / 关键词匹配: 回答需要包含特定内容
  • LLM 裁判: 另一个 LLM 根据评判标准评估回答是否达标。裁判只给 0(不通过)或 1(通过)

裁判评分更灵活,但会消耗额外的 API 额度且不完全确定性。

代码生成 (Code)

模型编写代码,评分检查代码是否能正常工作。

适用场景: HumanEval、MBPP 等编程基准,或任何输出是可运行代码的自定义任务。

评分原理: 目前通过裁判路径评分——由 LLM 评估生成的代码是否满足需求。完整的沙箱执行(运行代码并检查测试用例)计划在未来版本中实现。

对战——Arena 模式

两个模型回答同一个 prompt,裁判选出更好的回答。经过多次比较后形成排名。

适用场景: 衡量相对质量,适合没有单一「正确答案」的场景。如评估有用性、写作质量或指令跟随能力。

评分原理: 裁判 LLM(或人类)选择 A、B 或平局。结果汇总为 Bradley-Terry 评分,以 Elo 风格展示,并附带置信区间。

Arena 即将推出

Arena 模式正在积极开发中。评测基础设施已就位,但完整的对战排名和排行榜 UI 尚未发布。目前请使用标准 Run 和 Comparison 功能。

如何选择

  • 有明确正确答案? → 单选题或多选题
  • 开放式但有具体评判标准? → 自由文本 + LLM 裁判
  • 两个模型正面比较? → 对战 Arena
  • 测试代码输出? → 代码生成

关于如何在数据集文件中组织这些题目,请参见 数据集格式