创建与管理数据集
当前 alpha UI 里,eval_752 提供三种数据集入口:
- 直接在浏览器里创建 dataset draft
- 通过向导从 Hugging Face 导入
- 上传
.eval752.zip包
本指南覆盖这些已交付流程,以及 dataset explorer 和导出路径。
你可以按目标选择最简单的入口:
- 我想直接在产品内编 benchmark:用 Dataset Builder
- 数据集已经存在于别处:从 Hugging Face 导入,或上传
.eval752.zip - 我只是想先快速验证整条链路:先用一个小型真实数据切片或一个小
.eval752.zip
当前 Alpha 范围
今天已经支持:
- Dataset Builder GUI:带 draft 持久化、section 管理、拖拽 regroup、review 和 publish
- Hugging Face 预览、列映射和导入
.eval752.zip上传- Dataset explorer:带搜索、section 过滤、分页和过滤导出
- 全量数据集导出为
.eval752.zip
当前 UI 里还没有:
- 浏览器内直接上传 CSV / JSON / JSONL
- 浏览器内直接上传
.llmset.zip
如果你手头还有旧格式数据集,请先用项目工具转换为 .eval752.zip,再通过 UI 上传。
在浏览器里构建数据集
当你想在产品内整理或编辑 benchmark,而不是先准备 zip 包时,用这个路径。
- 打开 Datasets。
- 在 Dataset Builder 区域点击 Open Builder,或继续已有 draft。
- Step 1 填写数据集名称、benchmark 意图和说明。
- Step 2 添加或重命名 sections。
- Step 3 添加题目、复制或删除题目、在 sections 之间拖拽题目;必要时使用更适合触屏的 Move to section 作为 regroup fallback,并附加本地文件作为嵌入资产。
- Builder 现在会把附带的图片直接显示为缩略图。非图片资产仍显示为文件卡片。
- 嵌入的
image/*资产会在Runs中作为真实多模态输入发送给支持图像能力的 provider。非图片资产仍保留用于检查和导出,但不会直接内联到模型请求里。 - Step 4 复核数量、section 构成和发布准备状态。
- 点击 Publish dataset。
发布后会在主数据集列表里生成正式数据集,同时保留 draft,方便之后继续编辑或再次发布。
如果 benchmark 逻辑主要存在于你的脑子里或一份文档里,而不是某个现成数据仓库里,Dataset Builder 就是最直接的入口。
从 Hugging Face 导入
当数据集已经存在于 Hugging Face 上时,用这个流程。
- 打开 Datasets。
- 点击 Start import wizard。
- 输入 dataset 路径、split 和 preview limit。
- 按需填写 display name 和 description。
- 点击 Preview dataset。
- 审核自动识别出的列,并映射:
- prompt column
- answer column
- 可选的 choices / type / metadata columns
- 继续 review 并导入数据集。
向导会把数据规范化后存入本地数据库。导入完成后,数据集会出现在主列表里,并能立即在 Runs 中使用。
第一次导入建议先选一个小切片,例如 test[:30]。先在 30 行上确认列映射,比直接在 30,000 行上试错更快。
上传 .eval752.zip 包
当你已经有一个 eval_752 兼容包时,用这个流程。
- 打开 Datasets。
- 在 Upload eval752 package 里选择本地
.eval752.zip文件。 - 按需覆盖 display name 并补充备注。
- 点击 Upload dataset。
包会被解包为本地 dataset / section / item 记录。上传后,你可以在 explorer 里查看数据集,或直接拿它启动 runs。若包里带有 assets/ 文件,这些嵌入文件会被恢复为真实数据集资产,因此图片题不会退化成普通路径元数据。
.eval752.zip 里包含什么
在当前 alpha 中,UI 把 .eval752.zip 当作便携式数据集格式。一个包可以包含:
- dataset metadata
- 一个或多个 sections
- 规范化后的 items
- items 引用的可选资产
正式 schema 请看 Dataset Format 和 Dataset Ingestion。
浏览、过滤与导出
每张 dataset 卡片都有三个主要动作:
- View:打开 explorer 对话框
- Export:把整个数据集下载成
.eval752.zip - Section chips:快速查看题目是如何分组的
在 explorer 对话框里你可以:
- 按文本搜索题目
- 按一个或多个 sections 过滤
- 分页浏览数据集
- 直接预览附带图片
- 复制题目文本
- 将当前过滤后的视图导出为
.eval752.zip
这是在发起 run 之前验证数据集是否正确的最佳方式。
成功时通常应满足:
- 数据集卡片出现在主列表中
- section chips 看起来合理
View里显示的是真实题目文本,而不是空行Runs页面可以立刻选到这个数据集
实用建议
- 若 benchmark 是定制的、手工整理的,而且不在 Hugging Face 上,就用 Dataset Builder。
- 在验证 Hugging Face 映射时,优先从
test[:30]这类小切片开始。 - 如果 Hugging Face 行里本来就有图片 URL 或嵌入资产 JSON,把那一列映射到
assets_column;当样本行里暴露出可用 URL 或嵌入数据时,预览面板会显示图片。 - 给数据集起有意义的 display name,后续在
Runs和Comparison里更容易读。 - 想分享一个较小子集时,可以先用 section 过滤器做出更小的 review bundle 再导出。
- 如果某个 Hugging Face 数据集需要当前向导没有暴露的额外 config 或 auth,就把它视为当前 UI 暂不支持,改用更简单的公开数据集,或先准备好
.eval752.zip再导入。
