启动与比较评测 Runs

本指南覆盖 eval_752 的核心工作流：发起 run、实时监控 run，以及回看已完成结果。

如果目标模型只存在于网页而不是 API provider，请改用 Browser Harness。

什么是 Run？

一条 run 就是：针对一个 provider / model，用一个 dataset 执行的一次评测任务。每条 run 都会保存：

Runs 是主要的操作面。

这个页面分成三层：

每个活动 run 窗口都会显示：

当前题卡会暴露 waiting、streaming、quiet、buffered wait 这类请求活动状态。随着执行收敛，活动面板、archive/history 和 inspector 应该看到同一条 run 状态。

当题目带有图片资产时，面板会直接渲染图片，而不是只显示路径。如果 provider 支持 image inputs，这些图片也会被真实发送给模型。

如果 provider 会返回 reasoning 文本，UI 会把 reasoning 和最终答案分开显示。

第一次建议保持简单：

后端会把 run 放进队列，worker 处理题目时会通过 SSE 持续推送更新。

如果 provider 超时、限流或返回畸形输出：

当你至少有两条已经 settle 的 run 之后，再去 Comparison 做并排分析。