数据集格式

eval_752 内部使用 JSONL 格式存储评测题目(每行一个 JSON 对象)。本页介绍这个格式,帮助你理解导入内容、手动构建数据集或调试列映射。

不需要死记硬背

如果你通过 UI(Dataset Builder 或 Hugging Face 导入)构建数据集,eval_752 会自动处理格式。本页是需要检查或手动构造题目时的参考。

题目结构

JSONL 文件中的每一行代表一个评测题目:

{
  "id": "q-001",
  "type": "mcq_single",
  "inputs": {
    "text": "法国的首都是?",
    "images": [],
    "audio": [],
    "video": []
  },
  "choices": ["伦敦", "巴黎", "柏林", "马德里"],
  "answer": "巴黎",
  "checker": null,
  "criteria": null,
  "meta": {
    "source": "geography-basics",
    "difficulty": "easy",
    "section": "Europe"
  }
}

字段说明

字段必填说明
id题目的唯一标识。在数据集内必须唯一。
type类型:mcq_singlemcq_multifreeformcodejudge_pairwise
inputs.text发送给模型的 prompt 文本。
inputs.images图片资源的相对路径数组(如 ["assets/diagram.png"])。
inputs.audio音频资源的相对路径数组(规划中)。
inputs.video视频资源的相对路径数组(规划中)。
choices仅选择题答案选项数组。选择题类型必填。
answer正确答案。单选题为字符串,多选题为数组。
checker自定义检查器(预留字段)。
criteriaLLM 裁判评分的评判标准。
meta任意元数据——来源、难度、分区、标签等。

支持的题目类型

  • mcq_single — 从 choices 中选一个正确答案。answer 是匹配某个选项的字符串。
  • mcq_multi — 多个正确答案。answer 是字符串数组。
  • freeform — 开放式文本回答。answer 是参考文本(供裁判或正则评分使用)。
  • code — 代码生成任务。answer 包含参考解答。
  • judge_pairwise — Arena 模式的双回答比较。

多模态题目

对于包含图片的题目,使用 assets/ 下的相对路径引用:

{
  "id": "img-001",
  "type": "freeform",
  "inputs": {
    "text": "描述你在这张图片中看到了什么。",
    "images": ["assets/photo-001.jpg"]
  },
  "answer": "一只猫坐在窗台上。",
  "meta": { "requires": "vision" }
}

打包为 .eval752.zip 时,图片文件放在 assets/ 目录下。评测运行时,如果 Provider 支持视觉输入,eval_752 会将这些图片发送给模型。

.eval752.zip 包结构

.eval752.zip 是一个自包含的数据集(或结果)包:

bundle.eval752.zip
├── manifest.json        # 包格式版本和类型
├── meta.json            # 数据集元数据(名称、描述、版本哈希)
├── sections/
│   ├── section-1.jsonl  # 各分区的题目
│   └── section-2.jsonl
├── assets/              # 引用的图片和文件
│   └── photo-001.jpg
├── run_config.json      # (可选)运行配置快照
├── results.jsonl        # (可选)逐题结果
└── checkers/            # (可选)自定义检查器脚本

这个格式用于:

  • 在不同 eval_752 实例间共享数据集
  • 导出和归档评测结果
  • 导入 Browser Harness 采集结果

关于导入流程,请参见 数据集管理