查看结果

把这三个页面配合起来看:

  • Dashboard:看活动 run 总览和最近完成信号
  • Runs:看实时执行和操作级 drill-down
  • Comparison:看已完成 run 的分析

最容易记的心智模型是:

  • Dashboard:这个工作区现在发生了什么?
  • Runs:这条 run 此刻在做什么?
  • Comparison:这些已完成的 runs 有什么差异?

Dashboard

Dashboard 现在优先展示活动态:

  • 活动 run 预览卡片
  • 基于真实 completed run 数量的 comparison readiness 提示
  • 基于最近 retry 元数据的 retry watch 提示
  • 最近完成指标
  • 发起或回看 run 的快捷操作
  • 工作区上下文和运行态信号

把它当作总控室看板。需要更细的监控时,再跳进 Runs。如果 Dashboard 明确告诉你 comparison 还没准备好,就先留在 Runs 再补一条已完成 run。

Runs Inspector 与题目细节

从活动面板或 archive 里打开一条 run,可以查看 item 级别细节。现在的富详情包括:

  • sequence number 和 run state
  • prompt 文本快照
  • choices 与 answer payload
  • asset metadata
  • model response
  • score、latency 和 error detail

这个细节视图主要用于调试、校验和 judging 流程复核。当前 alpha 里,run 级导出动作也在 inspector 中。

Comparison

Comparison 只消费已完成的 runs,适合做并排分析,例如:

  • accuracy 和 score 汇总
  • latency 与 telemetry
  • retry-state 汇总
  • section-level accuracy 表格
  • alias-based grouping 和已保存预设

当你至少有两条 completed run,并且心里有一个明确问题时再打开 Comparison,例如:

  • 模型 A 的分数是否高于模型 B?
  • 同一个 provider 在两个模型名下的行为是否不同?
  • 新 run 是否只在某个 section 上退化,而总分仍然看起来没变?

导出结果

当前 alpha 的导出表面刻意保持收敛:

  • 只提供 .eval752.zip 这个可复现 bundle

浏览器内直接导出 CSV / JSON 还没有交付。如果你今天就需要原始 JSON,请先导出 .eval752.zip,再解包查看里面的 results.jsonlrun_config.json 和元数据文件。

更多细节见 导出结果