启动与比较评测 Runs

本指南覆盖 eval_752 的核心工作流:发起 run、实时监控 run,以及回看已完成结果。

如果目标模型只存在于网页而不是 API provider,请改用 Browser Harness

什么是 Run?

一条 run 就是:针对一个 provider / model,用一个 dataset 执行的一次评测任务。每条 run 都会保存:

  • provider 与 model 标识
  • dataset 标识
  • 配置快照
  • 每题的 prompt、answer、response、latency、scoring 与 error detail

Runs 页面:活动运行主面板

Runs 是主要的操作面。

布局

这个页面分成三层:

  1. 活动运行面板,用来显示当前和最近的 runs
  2. launch sheet,用来创建新 run
  3. archive/history 区域,用来看较早的 runs

活动 run 窗口里会显示什么

每个活动 run 窗口都会显示:

  • provider、model 和 dataset 标签
  • run 状态与 elapsed time
  • 已完成题目的 progress lattice
  • 当前题卡
  • 按执行顺序排列的最近历史流

当前题卡会暴露 waiting、streaming、quiet、buffered wait 这类请求活动状态。随着执行收敛,活动面板、archive/history 和 inspector 应该看到同一条 run 状态。

当题目带有图片资产时,面板会直接渲染图片,而不是只显示路径。如果 provider 支持 image inputs,这些图片也会被真实发送给模型。

如果 provider 会返回 reasoning 文本,UI 会把 reasoning 和最终答案分开显示。

创建新 Run

  1. 进入 Runs
  2. 打开 launch sheet
  3. 选择 provider
  4. 输入准确的模型名
  5. 选择 dataset
  6. 按需补 alias、label、judge model 或额外配置
  7. 提交 run

第一次建议保持简单:

  • 只测一个 provider
  • 只选一个小数据集
  • 不开 variations
  • 除非必要,不要一开始就加自定义 judge override

后端会把 run 放进队列,worker 处理题目时会通过 SSE 持续推送更新。

状态含义

  • pending:已入队,等待 worker
  • running:正在处理 dataset items
  • completed:成功完成
  • failed:因不可恢复错误终止
  • canceled:在完成前被停止

Provider 失败与恢复

如果 provider 超时、限流或返回畸形输出:

  • run logs 会记录每次 completion 失败
  • 重试元数据会保留在 run 上
  • 失败题会明确 settle,不会让面板一直悬挂
  • 在可能的情况下,worker 中断会被当成可恢复基础设施故障处理
  • 多个浏览器标签页最终会收敛到同一个服务端快照

DashboardComparison 的分工

  • Dashboard:用来快速浏览当前活动 runs 和最近结果
  • Comparison:用来分析已完成的 runs

当你至少有两条已经 settle 的 run 之后,再去 Comparison 做并排分析。