import { withBase } from "@rspress/core/runtime";
快速开始指南
让 eval_752 跑起来,并在约 5 分钟内完成你的第一次评测。
你将完成
- 用 Docker Compose 启动平台
- 添加一个 Provider 并进行 Smoke Test
- 导入一套数据集
- 发起你的第一次评测 Run
前提条件: 已安装并运行 Docker,以及一个你想评测的 Provider 的 API Key。
第 1 步——启动服务
等待约一分钟后,验证一切正常:
这个服务栈包含 PostgreSQL、Redis、FastAPI、Celery(worker + beat)和 React 前端。
如果出现数据库认证错误,说明已有的 Docker 数据卷和 .env 的值不匹配。用 docker compose down -v 重置后再试。
第 2 步——检查 Dashboard
你应该看到:
- Dashboard 正常加载
- 服务健康状态显示 backend 在线
Providers、Datasets、Runs、Settings都能正常打开
工作区一开始是空的——这是有意的。你即将添加真实数据。
<img alt="空的工作区 Dashboard,显示服务健康卡和快捷操作" src={withBase("/screenshots/zh/dashboard-overview.webp")} />
第 3 步——添加 Provider
进入 Providers,创建你想评测的 Provider。
你需要:
- 名称 — 你能认出来的标签(如「OpenAI 生产环境」)
- Provider 类型 — 匹配 API 家族(OpenAI、Anthropic、Google、Custom)
- Base URL — Provider 的 API 根地址(如
https://api.openai.com/v1) - API Key — 你的真实密钥(加密存储)
保存后,用你实际打算评测的模型名运行一次 Smoke Test。
成功的标志:
- 返回一个可读的回答
- 没有凭证错误
- Provider 卡显示为健康状态
如果你的模型服务器运行在宿主机上(如 LM Studio、Ollama、vLLM),Base URL 中用 host.docker.internal 代替 localhost。
第 4 步——导入数据集
进入 Datasets,选择一种方式:
- Hugging Face 导入 — 公开基准数据集(先用小切片如
test[:30]) - 上传
.eval752.zip— 如果你已有打包好的数据集 - Dataset Builder — 直接在浏览器中创建自定义基准
首次运行建议用小数据集,这样能快速验证整个流程。
导入后检查:
- 数据集出现在列表中
- 点击 View 能看到真实的题目文本
- 在 Runs 页面可以选到这个数据集
第 5 步——发起你的第一次评测
进入 Runs,点击 Launch run。
- 选择你的 Provider
- 输入准确的模型名称
- 选择你的数据集
- 点击 Launch run
你会看到:
- Run 出现在活跃运行面板上
- 进度通过 SSE 实时更新
- 每道题完成后显示题目和回答
Run 完成后,你可以查看逐题结果并导出为 .eval752.zip。
第 6 步(可选)——调整运行时设置
进入 Settings 调整:
- 请求超时
- 重试次数和退避
- Run 恢复策略
- LightEval executor 路由
这些设置存储在数据库中——不需要编辑 .env。
故障排除
数据库连接错误
确保 .env 存在,且 DATABASE_URL 用的是主机名 postgres(不是 localhost)——Docker Compose 环境中服务间用服务名通信。
Smoke Test 失败
检查:Base URL、模型名称、API Key。本地网关用 host.docker.internal。
更换 ENCRYPTION_KEY 后旧密钥失效
如果在使用过 app 之后更换了加密密钥,已存储的 Provider 密钥将无法读取。重置并重新开始:
然后在 Providers 页面重新添加你的 Provider。
