import { withBase } from "@rspress/core/runtime";

快速开始指南

让 eval_752 跑起来,并在约 5 分钟内完成你的第一次评测。

你将完成

  1. 用 Docker Compose 启动平台
  2. 添加一个 Provider 并进行 Smoke Test
  3. 导入一套数据集
  4. 发起你的第一次评测 Run

前提条件: 已安装并运行 Docker,以及一个你想评测的 Provider 的 API Key。

第 1 步——启动服务

git clone https://github.com/t41372/eval_752.git
cd eval_752
cp .env.example .env
openssl rand -hex 32  # 把输出粘贴到 .env 的 ENCRYPTION_KEY 中
docker compose up --build -d

等待约一分钟后,验证一切正常:

docker compose ps                     # 所有服务应该是 "running"
curl http://localhost:8000/healthz    # 应返回 {"status":"ok"}

这个服务栈包含 PostgreSQL、Redis、FastAPI、Celery(worker + beat)和 React 前端。

数据卷冲突

如果出现数据库认证错误,说明已有的 Docker 数据卷和 .env 的值不匹配。用 docker compose down -v 重置后再试。

第 2 步——检查 Dashboard

打开 http://localhost:5173

你应该看到:

  • Dashboard 正常加载
  • 服务健康状态显示 backend 在线
  • ProvidersDatasetsRunsSettings 都能正常打开

工作区一开始是空的——这是有意的。你即将添加真实数据。

<img alt="空的工作区 Dashboard,显示服务健康卡和快捷操作" src={withBase("/screenshots/zh/dashboard-overview.webp")} />

第 3 步——添加 Provider

进入 Providers,创建你想评测的 Provider。

你需要:

  1. 名称 — 你能认出来的标签(如「OpenAI 生产环境」)
  2. Provider 类型 — 匹配 API 家族(OpenAI、Anthropic、Google、Custom)
  3. Base URL — Provider 的 API 根地址(如 https://api.openai.com/v1
  4. API Key — 你的真实密钥(加密存储)

保存后,用你实际打算评测的模型名运行一次 Smoke Test

成功的标志:

  • 返回一个可读的回答
  • 没有凭证错误
  • Provider 卡显示为健康状态
Docker + 本地模型服务器

如果你的模型服务器运行在宿主机上(如 LM Studio、Ollama、vLLM),Base URL 中用 host.docker.internal 代替 localhost

第 4 步——导入数据集

进入 Datasets,选择一种方式:

  • Hugging Face 导入 — 公开基准数据集(先用小切片如 test[:30]
  • 上传 .eval752.zip — 如果你已有打包好的数据集
  • Dataset Builder — 直接在浏览器中创建自定义基准

首次运行建议用小数据集,这样能快速验证整个流程。

导入后检查:

  • 数据集出现在列表中
  • 点击 View 能看到真实的题目文本
  • Runs 页面可以选到这个数据集

第 5 步——发起你的第一次评测

进入 Runs,点击 Launch run

  1. 选择你的 Provider
  2. 输入准确的模型名称
  3. 选择你的数据集
  4. 点击 Launch run

你会看到:

  • Run 出现在活跃运行面板上
  • 进度通过 SSE 实时更新
  • 每道题完成后显示题目和回答

Run 完成后,你可以查看逐题结果并导出为 .eval752.zip

第 6 步(可选)——调整运行时设置

进入 Settings 调整:

  • 请求超时
  • 重试次数和退避
  • Run 恢复策略
  • LightEval executor 路由

这些设置存储在数据库中——不需要编辑 .env

故障排除

数据库连接错误

确保 .env 存在,且 DATABASE_URL 用的是主机名 postgres(不是 localhost)——Docker Compose 环境中服务间用服务名通信。

Smoke Test 失败

检查:Base URL、模型名称、API Key。本地网关用 host.docker.internal

更换 ENCRYPTION_KEY 后旧密钥失效

如果在使用过 app 之后更换了加密密钥,已存储的 Provider 密钥将无法读取。重置并重新开始:

docker compose down -v
docker compose up --build -d

然后在 Providers 页面重新添加你的 Provider。

下一步

  • 用户指南 — 日常操作:Providers、数据集、Runs、对比、定时任务
  • 核心概念 — 理解评测类型、评分方式和可复现性
  • 配置指南 — 所有环境变量和运行时设置