快速开始

从零到你的第一次评测,所需的一切。

使用 Docker 的推荐路径大约需要 5 分钟:

  1. 启动服务
  2. 添加一个 Provider 并确认它能用
  3. 导入一套数据集
  4. 发起一次评测

本节内容

  • 快速开始指南 — 从 docker compose up 到完成评测的完整步骤。
  • 安装指南 — 部署方式:Docker、本地开发、GHCR 预构建镜像。
  • 故障排除 — Docker、Provider 连接和首次运行常见问题。
从一开始就用真实的模型名称

最容易浪费时间的做法是:Smoke Test 用一个模型,评测用另一个。请用你真正打算评测的那个模型名。

完成后你会得到

  • 一个运行中的 eval_752 实例,Dashboard 正常显示
  • 一个通过 Smoke Test 的真实 Provider
  • 一套加载完成并可用的数据集
  • 你的第一次完成的评测 Run
  • 知道下一步该去哪:用户指南 了解日常操作,核心概念 理解背后的「为什么」