数据集格式

eval_752 内部使用 JSONL 格式存储评测题目（每行一个 JSON 对象）。本页介绍这个格式，帮助你理解导入内容、手动构建数据集或调试列映射。

不需要死记硬背

如果你通过 UI（Dataset Builder 或 Hugging Face 导入）构建数据集，eval_752 会自动处理格式。本页是需要检查或手动构造题目时的参考。

题目结构

JSONL 文件中的每一行代表一个评测题目：

{
  "id": "q-001",
  "type": "mcq_single",
  "inputs": {
    "text": "法国的首都是？",
    "images": [],
    "audio": [],
    "video": []
  },
  "choices": ["伦敦", "巴黎", "柏林", "马德里"],
  "answer": "巴黎",
  "checker": null,
  "criteria": null,
  "meta": {
    "source": "geography-basics",
    "difficulty": "easy",
    "section": "Europe"
  }
}

字段说明

字段	必填	说明
`id`	是	题目的唯一标识。在数据集内必须唯一。
`type`	是	类型：`mcq_single`、`mcq_multi`、`freeform`、`code`、`judge_pairwise`
`inputs.text`	是	发送给模型的 prompt 文本。
`inputs.images`	否	图片资源的相对路径数组（如 `["assets/diagram.png"]`）。
`inputs.audio`	否	音频资源的相对路径数组（规划中）。
`inputs.video`	否	视频资源的相对路径数组（规划中）。
`choices`	仅选择题	答案选项数组。选择题类型必填。
`answer`	是	正确答案。单选题为字符串，多选题为数组。
`checker`	否	自定义检查器（预留字段）。
`criteria`	否	LLM 裁判评分的评判标准。
`meta`	否	任意元数据——来源、难度、分区、标签等。

支持的题目类型

mcq_single — 从 choices 中选一个正确答案。answer 是匹配某个选项的字符串。
mcq_multi — 多个正确答案。answer 是字符串数组。
freeform — 开放式文本回答。answer 是参考文本（供裁判或正则评分使用）。
code — 代码生成任务。answer 包含参考解答。
judge_pairwise — Arena 模式的双回答比较。

多模态题目

对于包含图片的题目，使用 assets/ 下的相对路径引用：

{
  "id": "img-001",
  "type": "freeform",
  "inputs": {
    "text": "描述你在这张图片中看到了什么。",
    "images": ["assets/photo-001.jpg"]
  },
  "answer": "一只猫坐在窗台上。",
  "meta": { "requires": "vision" }
}

打包为 .eval752.zip 时，图片文件放在 assets/ 目录下。评测运行时，如果 Provider 支持视觉输入，eval_752 会将这些图片发送给模型。

`.eval752.zip` 包结构

.eval752.zip 是一个自包含的数据集（或结果）包：

bundle.eval752.zip
├── manifest.json        # 包格式版本和类型
├── meta.json            # 数据集元数据（名称、描述、版本哈希）
├── sections/
│   ├── section-1.jsonl  # 各分区的题目
│   └── section-2.jsonl
├── assets/              # 引用的图片和文件
│   └── photo-001.jpg
├── run_config.json      # （可选）运行配置快照
├── results.jsonl        # （可选）逐题结果
└── checkers/            # （可选）自定义检查器脚本

这个格式用于：

在不同 eval_752 实例间共享数据集
导出和归档评测结果
导入 Browser Harness 采集结果

关于导入流程，请参见数据集管理。

#数据集格式

#题目结构

#字段说明

#支持的题目类型

#多模态题目