import { withBase } from "@rspress/core/runtime";

快速开始指南

让 eval_752 跑起来，并在约 5 分钟内完成你的第一次评测。

你将完成

用 Docker Compose 启动平台
添加一个 Provider 并进行 Smoke Test
导入一套数据集
发起你的第一次评测 Run

前提条件: 已安装并运行 Docker，以及一个你想评测的 Provider 的 API Key。

第 1 步——启动服务

git clone https://github.com/t41372/eval_752.git
cd eval_752
cp .env.example .env
openssl rand -hex 32  # 把输出粘贴到 .env 的 ENCRYPTION_KEY 中
docker compose up --build -d

等待约一分钟后，验证一切正常：

docker compose ps                     # 所有服务应该是 "running"
curl http://localhost:8000/healthz    # 应返回 {"status":"ok"}

这个服务栈包含 PostgreSQL、Redis、FastAPI、Celery（worker + beat）和 React 前端。

数据卷冲突

如果出现数据库认证错误，说明已有的 Docker 数据卷和 .env 的值不匹配。用 docker compose down -v 重置后再试。

第 2 步——检查 Dashboard

打开 http://localhost:5173。

你应该看到：

Dashboard 正常加载
服务健康状态显示 backend 在线
Providers、Datasets、Runs、Settings 都能正常打开

工作区一开始是空的——这是有意的。你即将添加真实数据。

第 3 步——添加 Provider

进入 Providers，创建你想评测的 Provider。

你需要：

名称 — 你能认出来的标签（如「OpenAI 生产环境」）
Provider 类型 — 匹配 API 家族（OpenAI、Anthropic、Google、Custom）
Base URL — Provider 的 API 根地址（如 https://api.openai.com/v1）
API Key — 你的真实密钥（加密存储）

保存后，用你实际打算评测的模型名运行一次 Smoke Test。

成功的标志：

返回一个可读的回答
没有凭证错误
Provider 卡显示为健康状态

Docker + 本地模型服务器

如果你的模型服务器运行在宿主机上（如 LM Studio、Ollama、vLLM），Base URL 中用 host.docker.internal 代替 localhost。

第 4 步——导入数据集

进入 Datasets，选择一种方式：

Hugging Face 导入 — 公开基准数据集（先用小切片如 test[:30]）
上传 .eval752.zip — 如果你已有打包好的数据集
Dataset Builder — 直接在浏览器中创建自定义基准

首次运行建议用小数据集，这样能快速验证整个流程。

导入后检查：

数据集出现在列表中
点击 View 能看到真实的题目文本
在 Runs 页面可以选到这个数据集

第 5 步——发起你的第一次评测

进入 Runs，点击 Launch run。

选择你的 Provider
输入准确的模型名称
选择你的数据集
点击 Launch run

你会看到：

Run 出现在活跃运行面板上
进度通过 SSE 实时更新
每道题完成后显示题目和回答

Run 完成后，你可以查看逐题结果并导出为 .eval752.zip。

第 6 步（可选）——调整运行时设置

进入 Settings 调整：

请求超时
重试次数和退避
Run 恢复策略
LightEval executor 路由

这些设置存储在数据库中——不需要编辑 .env。

故障排除

数据库连接错误

确保 .env 存在，且 DATABASE_URL 用的是主机名 postgres（不是 localhost）——Docker Compose 环境中服务间用服务名通信。

Smoke Test 失败

检查：Base URL、模型名称、API Key。本地网关用 host.docker.internal。

更换 ENCRYPTION_KEY 后旧密钥失效

如果在使用过 app 之后更换了加密密钥，已存储的 Provider 密钥将无法读取。重置并重新开始：

docker compose down -v
docker compose up --build -d

然后在 Providers 页面重新添加你的 Provider。

下一步

用户指南 — 日常操作：Providers、数据集、Runs、对比、定时任务
核心概念 — 理解评测类型、评分方式和可复现性
配置指南 — 所有环境变量和运行时设置

#快速开始指南

#你将完成

#第 1 步——启动服务

#第 2 步——检查 Dashboard

#第 3 步——添加 Provider

#第 4 步——导入数据集

#第 5 步——发起你的第一次评测

#第 6 步（可选）——调整运行时设置

#故障排除

#数据库连接错误

#Smoke Test 失败

#更换 ENCRYPTION_KEY 后旧密钥失效

#下一步