启动与比较评测 Runs
本指南覆盖 eval_752 的核心工作流:发起 run、实时监控 run,以及回看已完成结果。
如果目标模型只存在于网页而不是 API provider,请改用 Browser Harness。
什么是 Run?
一条 run 就是:针对一个 provider / model,用一个 dataset 执行的一次评测任务。每条 run 都会保存:
- provider 与 model 标识
- dataset 标识
- 配置快照
- 每题的 prompt、answer、response、latency、scoring 与 error detail
Runs 页面:活动运行主面板
Runs 是主要的操作面。
布局
这个页面分成三层:
- 活动运行面板,用来显示当前和最近的 runs
- launch sheet,用来创建新 run
- archive/history 区域,用来看较早的 runs
活动 run 窗口里会显示什么
每个活动 run 窗口都会显示:
- provider、model 和 dataset 标签
- run 状态与 elapsed time
- 已完成题目的 progress lattice
- 当前题卡
- 按执行顺序排列的最近历史流
当前题卡会暴露 waiting、streaming、quiet、buffered wait 这类请求活动状态。随着执行收敛,活动面板、archive/history 和 inspector 应该看到同一条 run 状态。
当题目带有图片资产时,面板会直接渲染图片,而不是只显示路径。如果 provider 支持 image inputs,这些图片也会被真实发送给模型。
如果 provider 会返回 reasoning 文本,UI 会把 reasoning 和最终答案分开显示。
创建新 Run
- 进入
Runs - 打开 launch sheet
- 选择 provider
- 输入准确的模型名
- 选择 dataset
- 按需补 alias、label、judge model 或额外配置
- 提交 run
第一次建议保持简单:
- 只测一个 provider
- 只选一个小数据集
- 不开 variations
- 除非必要,不要一开始就加自定义 judge override
后端会把 run 放进队列,worker 处理题目时会通过 SSE 持续推送更新。
状态含义
pending:已入队,等待 workerrunning:正在处理 dataset itemscompleted:成功完成failed:因不可恢复错误终止canceled:在完成前被停止
Provider 失败与恢复
如果 provider 超时、限流或返回畸形输出:
- run logs 会记录每次 completion 失败
- 重试元数据会保留在 run 上
- 失败题会明确 settle,不会让面板一直悬挂
- 在可能的情况下,worker 中断会被当成可恢复基础设施故障处理
- 多个浏览器标签页最终会收敛到同一个服务端快照
Dashboard 与 Comparison 的分工
Dashboard:用来快速浏览当前活动 runs 和最近结果Comparison:用来分析已完成的 runs
当你至少有两条已经 settle 的 run 之后,再去 Comparison 做并排分析。
