查看结果
把这三个页面配合起来看:
Dashboard:看活动 run 总览和最近完成信号Runs:看实时执行和操作级 drill-downComparison:看已完成 run 的分析
最容易记的心智模型是:
Dashboard:这个工作区现在发生了什么?Runs:这条 run 此刻在做什么?Comparison:这些已完成的 runs 有什么差异?
Dashboard
Dashboard 现在优先展示活动态:
- 活动 run 预览卡片
- 基于真实 completed run 数量的 comparison readiness 提示
- 基于最近 retry 元数据的 retry watch 提示
- 最近完成指标
- 发起或回看 run 的快捷操作
- 工作区上下文和运行态信号
把它当作总控室看板。需要更细的监控时,再跳进 Runs。如果 Dashboard 明确告诉你 comparison 还没准备好,就先留在 Runs 再补一条已完成 run。
Runs Inspector 与题目细节
从活动面板或 archive 里打开一条 run,可以查看 item 级别细节。现在的富详情包括:
- sequence number 和 run state
- prompt 文本快照
- choices 与 answer payload
- asset metadata
- model response
- score、latency 和 error detail
这个细节视图主要用于调试、校验和 judging 流程复核。当前 alpha 里,run 级导出动作也在 inspector 中。
Comparison
Comparison 只消费已完成的 runs,适合做并排分析,例如:
- accuracy 和 score 汇总
- latency 与 telemetry
- retry-state 汇总
- section-level accuracy 表格
- alias-based grouping 和已保存预设
当你至少有两条 completed run,并且心里有一个明确问题时再打开 Comparison,例如:
- 模型 A 的分数是否高于模型 B?
- 同一个 provider 在两个模型名下的行为是否不同?
- 新 run 是否只在某个 section 上退化,而总分仍然看起来没变?
导出结果
当前 alpha 的导出表面刻意保持收敛:
- 只提供
.eval752.zip这个可复现 bundle
浏览器内直接导出 CSV / JSON 还没有交付。如果你今天就需要原始 JSON,请先导出 .eval752.zip,再解包查看里面的 results.jsonl、run_config.json 和元数据文件。
更多细节见 导出结果。
