创建与管理数据集

当前 alpha UI 里,eval_752 提供三种数据集入口:

  1. 直接在浏览器里创建 dataset draft
  2. 通过向导从 Hugging Face 导入
  3. 上传 .eval752.zip

本指南覆盖这些已交付流程,以及 dataset explorer 和导出路径。

你可以按目标选择最简单的入口:

  • 我想直接在产品内编 benchmark:用 Dataset Builder
  • 数据集已经存在于别处:从 Hugging Face 导入,或上传 .eval752.zip
  • 我只是想先快速验证整条链路:先用一个小型真实数据切片或一个小 .eval752.zip

当前 Alpha 范围

今天已经支持:

  • Dataset Builder GUI:带 draft 持久化、section 管理、拖拽 regroup、review 和 publish
  • Hugging Face 预览、列映射和导入
  • .eval752.zip 上传
  • Dataset explorer:带搜索、section 过滤、分页和过滤导出
  • 全量数据集导出为 .eval752.zip

当前 UI 里还没有:

  • 浏览器内直接上传 CSV / JSON / JSONL
  • 浏览器内直接上传 .llmset.zip

如果你手头还有旧格式数据集,请先用项目工具转换为 .eval752.zip,再通过 UI 上传。

在浏览器里构建数据集

当你想在产品内整理或编辑 benchmark,而不是先准备 zip 包时,用这个路径。

  1. 打开 Datasets
  2. Dataset Builder 区域点击 Open Builder,或继续已有 draft。
  3. Step 1 填写数据集名称、benchmark 意图和说明。
  4. Step 2 添加或重命名 sections。
  5. Step 3 添加题目、复制或删除题目、在 sections 之间拖拽题目;必要时使用更适合触屏的 Move to section 作为 regroup fallback,并附加本地文件作为嵌入资产。
  6. Builder 现在会把附带的图片直接显示为缩略图。非图片资产仍显示为文件卡片。
  7. 嵌入的 image/* 资产会在 Runs 中作为真实多模态输入发送给支持图像能力的 provider。非图片资产仍保留用于检查和导出,但不会直接内联到模型请求里。
  8. Step 4 复核数量、section 构成和发布准备状态。
  9. 点击 Publish dataset

发布后会在主数据集列表里生成正式数据集,同时保留 draft,方便之后继续编辑或再次发布。

如果 benchmark 逻辑主要存在于你的脑子里或一份文档里,而不是某个现成数据仓库里,Dataset Builder 就是最直接的入口。

从 Hugging Face 导入

当数据集已经存在于 Hugging Face 上时,用这个流程。

  1. 打开 Datasets
  2. 点击 Start import wizard
  3. 输入 dataset 路径、split 和 preview limit。
  4. 按需填写 display name 和 description。
  5. 点击 Preview dataset
  6. 审核自动识别出的列,并映射:
    • prompt column
    • answer column
    • 可选的 choices / type / metadata columns
  7. 继续 review 并导入数据集。

向导会把数据规范化后存入本地数据库。导入完成后,数据集会出现在主列表里,并能立即在 Runs 中使用。

第一次导入建议先选一个小切片,例如 test[:30]。先在 30 行上确认列映射,比直接在 30,000 行上试错更快。

上传 .eval752.zip

当你已经有一个 eval_752 兼容包时,用这个流程。

  1. 打开 Datasets
  2. Upload eval752 package 里选择本地 .eval752.zip 文件。
  3. 按需覆盖 display name 并补充备注。
  4. 点击 Upload dataset

包会被解包为本地 dataset / section / item 记录。上传后,你可以在 explorer 里查看数据集,或直接拿它启动 runs。若包里带有 assets/ 文件,这些嵌入文件会被恢复为真实数据集资产,因此图片题不会退化成普通路径元数据。

.eval752.zip 里包含什么

在当前 alpha 中,UI 把 .eval752.zip 当作便携式数据集格式。一个包可以包含:

  • dataset metadata
  • 一个或多个 sections
  • 规范化后的 items
  • items 引用的可选资产

正式 schema 请看 Dataset FormatDataset Ingestion

浏览、过滤与导出

每张 dataset 卡片都有三个主要动作:

  • View:打开 explorer 对话框
  • Export:把整个数据集下载成 .eval752.zip
  • Section chips:快速查看题目是如何分组的

在 explorer 对话框里你可以:

  • 按文本搜索题目
  • 按一个或多个 sections 过滤
  • 分页浏览数据集
  • 直接预览附带图片
  • 复制题目文本
  • 将当前过滤后的视图导出为 .eval752.zip

这是在发起 run 之前验证数据集是否正确的最佳方式。

成功时通常应满足:

  • 数据集卡片出现在主列表中
  • section chips 看起来合理
  • View 里显示的是真实题目文本,而不是空行
  • Runs 页面可以立刻选到这个数据集

实用建议

  • 若 benchmark 是定制的、手工整理的,而且不在 Hugging Face 上,就用 Dataset Builder。
  • 在验证 Hugging Face 映射时,优先从 test[:30] 这类小切片开始。
  • 如果 Hugging Face 行里本来就有图片 URL 或嵌入资产 JSON,把那一列映射到 assets_column;当样本行里暴露出可用 URL 或嵌入数据时,预览面板会显示图片。
  • 给数据集起有意义的 display name,后续在 RunsComparison 里更容易读。
  • 想分享一个较小子集时,可以先用 section 过滤器做出更小的 review bundle 再导出。
  • 如果某个 Hugging Face 数据集需要当前向导没有暴露的额外 config 或 auth,就把它视为当前 UI 暂不支持,改用更简单的公开数据集,或先准备好 .eval752.zip 再导入。