数据集格式
eval_752 内部使用 JSONL 格式存储评测题目(每行一个 JSON 对象)。本页介绍这个格式,帮助你理解导入内容、手动构建数据集或调试列映射。
不需要死记硬背
如果你通过 UI(Dataset Builder 或 Hugging Face 导入)构建数据集,eval_752 会自动处理格式。本页是需要检查或手动构造题目时的参考。
题目结构
JSONL 文件中的每一行代表一个评测题目:
字段说明
支持的题目类型
mcq_single— 从choices中选一个正确答案。answer是匹配某个选项的字符串。mcq_multi— 多个正确答案。answer是字符串数组。freeform— 开放式文本回答。answer是参考文本(供裁判或正则评分使用)。code— 代码生成任务。answer包含参考解答。judge_pairwise— Arena 模式的双回答比较。
多模态题目
对于包含图片的题目,使用 assets/ 下的相对路径引用:
打包为 .eval752.zip 时,图片文件放在 assets/ 目录下。评测运行时,如果 Provider 支持视觉输入,eval_752 会将这些图片发送给模型。
.eval752.zip 包结构
.eval752.zip 是一个自包含的数据集(或结果)包:
这个格式用于:
- 在不同 eval_752 实例间共享数据集
- 导出和归档评测结果
- 导入 Browser Harness 采集结果
关于导入流程,请参见 数据集管理。
