评测类型

eval_752 支持多种题目格式。每种类型决定了数据集中题目的结构和评分方式。

一览

最常见的类型。模型看到一个问题和一组选项 (A/B/C/D)，评分器提取模型的选择并与参考答案比对。

适用场景: MMLU、ARC、HellaSwag 等标准基准——任何只有一个正确答案的固定选项集。

评分原理: 评分器从模型输出中提取字母选项，与参考答案比对。能处理常见格式变化，如「答案是 B」或「(B)」。

和单选题类似，但可以有多个正确答案。评分根据正确选中的数量给予部分得分。

适用场景: 多个选项同时正确的知识测试。标准基准中较少见，但在自定义评测中很有用。

评分原理: 评分器提取所有选中的字母，计算与参考答案集合的 F1 分数。选对 3 个中的 2 个比只对 1 个分数高，但选错也会扣分。

模型生成开放式回答。没有预定义选项。

适用场景: 创意写作、解释说明、摘要、翻译——任何「正确答案」不是固定字符串的任务。

评分原理: 两种方式：

裁判评分更灵活，但会消耗额外的 API 额度且不完全确定性。

模型编写代码，评分检查代码是否能正常工作。

适用场景: HumanEval、MBPP 等编程基准，或任何输出是可运行代码的自定义任务。

评分原理: 目前通过裁判路径评分——由 LLM 评估生成的代码是否满足需求。完整的沙箱执行（运行代码并检查测试用例）计划在未来版本中实现。

两个模型回答同一个 prompt，裁判选出更好的回答。经过多次比较后形成排名。

适用场景: 衡量相对质量，适合没有单一「正确答案」的场景。如评估有用性、写作质量或指令跟随能力。

评分原理: 裁判 LLM（或人类）选择 A、B 或平局。结果汇总为 Bradley-Terry 评分，以 Elo 风格展示，并附带置信区间。

Arena 即将推出

Arena 模式正在积极开发中。评测基础设施已就位，但完整的对战排名和排行榜 UI 尚未发布。目前请使用标准 Run 和 Comparison 功能。

关于如何在数据集文件中组织这些题目，请参见数据集格式。