评测类型
eval_752 支持多种题目格式。每种类型决定了数据集中题目的结构和评分方式。
一览
单选题 (MCQ Single)
最常见的类型。模型看到一个问题和一组选项 (A/B/C/D),评分器提取模型的选择并与参考答案比对。
适用场景: MMLU、ARC、HellaSwag 等标准基准——任何只有一个正确答案的固定选项集。
评分原理: 评分器从模型输出中提取字母选项,与参考答案比对。能处理常见格式变化,如「答案是 B」或「(B)」。
多选题 (MCQ Multiple)
和单选题类似,但可以有多个正确答案。评分根据正确选中的数量给予部分得分。
适用场景: 多个选项同时正确的知识测试。标准基准中较少见,但在自定义评测中很有用。
评分原理: 评分器提取所有选中的字母,计算与参考答案集合的 F1 分数。选对 3 个中的 2 个比只对 1 个分数高,但选错也会扣分。
自由文本 (Freeform)
模型生成开放式回答。没有预定义选项。
适用场景: 创意写作、解释说明、摘要、翻译——任何「正确答案」不是固定字符串的任务。
评分原理: 两种方式:
- 正则 / 关键词匹配: 回答需要包含特定内容
- LLM 裁判: 另一个 LLM 根据评判标准评估回答是否达标。裁判只给 0(不通过)或 1(通过)
裁判评分更灵活,但会消耗额外的 API 额度且不完全确定性。
代码生成 (Code)
模型编写代码,评分检查代码是否能正常工作。
适用场景: HumanEval、MBPP 等编程基准,或任何输出是可运行代码的自定义任务。
评分原理: 目前通过裁判路径评分——由 LLM 评估生成的代码是否满足需求。完整的沙箱执行(运行代码并检查测试用例)计划在未来版本中实现。
对战——Arena 模式
两个模型回答同一个 prompt,裁判选出更好的回答。经过多次比较后形成排名。
适用场景: 衡量相对质量,适合没有单一「正确答案」的场景。如评估有用性、写作质量或指令跟随能力。
评分原理: 裁判 LLM(或人类)选择 A、B 或平局。结果汇总为 Bradley-Terry 评分,以 Elo 风格展示,并附带置信区间。
Arena 模式正在积极开发中。评测基础设施已就位,但完整的对战排名和排行榜 UI 尚未发布。目前请使用标准 Run 和 Comparison 功能。
如何选择
- 有明确正确答案? → 单选题或多选题
- 开放式但有具体评判标准? → 自由文本 + LLM 裁判
- 两个模型正面比较? → 对战 Arena
- 测试代码输出? → 代码生成
关于如何在数据集文件中组织这些题目,请参见 数据集格式。
