创建与管理数据集

当前 alpha UI 里，eval_752 提供三种数据集入口：

直接在浏览器里创建 dataset draft
通过向导从 Hugging Face 导入
上传 .eval752.zip 包

本指南覆盖这些已交付流程，以及 dataset explorer 和导出路径。

你可以按目标选择最简单的入口：

我想直接在产品内编 benchmark：用 Dataset Builder
数据集已经存在于别处：从 Hugging Face 导入，或上传 .eval752.zip
我只是想先快速验证整条链路：先用一个小型真实数据切片或一个小 .eval752.zip

当前 Alpha 范围

今天已经支持：

Dataset Builder GUI：带 draft 持久化、section 管理、拖拽 regroup、review 和 publish
Hugging Face 预览、列映射和导入
.eval752.zip 上传
Dataset explorer：带搜索、section 过滤、分页和过滤导出
全量数据集导出为 .eval752.zip

当前 UI 里还没有：

浏览器内直接上传 CSV / JSON / JSONL
浏览器内直接上传 .llmset.zip

如果你手头还有旧格式数据集，请先用项目工具转换为 .eval752.zip，再通过 UI 上传。

在浏览器里构建数据集

当你想在产品内整理或编辑 benchmark，而不是先准备 zip 包时，用这个路径。

打开 Datasets。
在 Dataset Builder 区域点击 Open Builder，或继续已有 draft。
Step 1 填写数据集名称、benchmark 意图和说明。
Step 2 添加或重命名 sections。
Step 3 添加题目、复制或删除题目、在 sections 之间拖拽题目；必要时使用更适合触屏的 Move to section 作为 regroup fallback，并附加本地文件作为嵌入资产。
Builder 现在会把附带的图片直接显示为缩略图。非图片资产仍显示为文件卡片。
嵌入的 image/* 资产会在 Runs 中作为真实多模态输入发送给支持图像能力的 provider。非图片资产仍保留用于检查和导出，但不会直接内联到模型请求里。
Step 4 复核数量、section 构成和发布准备状态。
点击 Publish dataset。

发布后会在主数据集列表里生成正式数据集，同时保留 draft，方便之后继续编辑或再次发布。

如果 benchmark 逻辑主要存在于你的脑子里或一份文档里，而不是某个现成数据仓库里，Dataset Builder 就是最直接的入口。

从 Hugging Face 导入

当数据集已经存在于 Hugging Face 上时，用这个流程。

打开 Datasets。
点击 Start import wizard。
输入 dataset 路径、split 和 preview limit。
按需填写 display name 和 description。
点击 Preview dataset。
审核自动识别出的列，并映射：
- prompt column
- answer column
- 可选的 choices / type / metadata columns
继续 review 并导入数据集。

向导会把数据规范化后存入本地数据库。导入完成后，数据集会出现在主列表里，并能立即在 Runs 中使用。

第一次导入建议先选一个小切片，例如 test[:30]。先在 30 行上确认列映射，比直接在 30,000 行上试错更快。

上传 `.eval752.zip` 包

当你已经有一个 eval_752 兼容包时，用这个流程。

打开 Datasets。
在 Upload eval752 package 里选择本地 .eval752.zip 文件。
按需覆盖 display name 并补充备注。
点击 Upload dataset。

包会被解包为本地 dataset / section / item 记录。上传后，你可以在 explorer 里查看数据集，或直接拿它启动 runs。若包里带有 assets/ 文件，这些嵌入文件会被恢复为真实数据集资产，因此图片题不会退化成普通路径元数据。

`.eval752.zip` 里包含什么

在当前 alpha 中，UI 把 .eval752.zip 当作便携式数据集格式。一个包可以包含：

dataset metadata
一个或多个 sections
规范化后的 items
items 引用的可选资产

正式 schema 请看 Dataset Format 和 Dataset Ingestion。

浏览、过滤与导出

每张 dataset 卡片都有三个主要动作：

View：打开 explorer 对话框
Export：把整个数据集下载成 .eval752.zip
Section chips：快速查看题目是如何分组的

在 explorer 对话框里你可以：

按文本搜索题目
按一个或多个 sections 过滤
分页浏览数据集
直接预览附带图片
复制题目文本
将当前过滤后的视图导出为 .eval752.zip

这是在发起 run 之前验证数据集是否正确的最佳方式。

成功时通常应满足：

数据集卡片出现在主列表中
section chips 看起来合理
View 里显示的是真实题目文本，而不是空行
Runs 页面可以立刻选到这个数据集

实用建议

若 benchmark 是定制的、手工整理的，而且不在 Hugging Face 上，就用 Dataset Builder。
在验证 Hugging Face 映射时，优先从 test[:30] 这类小切片开始。
如果 Hugging Face 行里本来就有图片 URL 或嵌入资产 JSON，把那一列映射到 assets_column；当样本行里暴露出可用 URL 或嵌入数据时，预览面板会显示图片。
给数据集起有意义的 display name，后续在 Runs 和 Comparison 里更容易读。
想分享一个较小子集时，可以先用 section 过滤器做出更小的 review bundle 再导出。
如果某个 Hugging Face 数据集需要当前向导没有暴露的额外 config 或 auth，就把它视为当前 UI 暂不支持，改用更简单的公开数据集，或先准备好 .eval752.zip 再导入。

#创建与管理数据集

#当前 Alpha 范围

#在浏览器里构建数据集

#从 Hugging Face 导入

#上传 .eval752.zip 包

#.eval752.zip 里包含什么

#浏览、过滤与导出

#实用建议