查看结果

把这三个页面配合起来看：

最容易记的心智模型是：

Dashboard

Dashboard 现在优先展示活动态：

把它当作总控室看板。需要更细的监控时，再跳进 Runs。如果 Dashboard 明确告诉你 comparison 还没准备好，就先留在 Runs 再补一条已完成 run。

从活动面板或 archive 里打开一条 run，可以查看 item 级别细节。现在的富详情包括：

这个细节视图主要用于调试、校验和 judging 流程复核。当前 alpha 里，run 级导出动作也在 inspector 中。

Comparison 只消费已完成的 runs，适合做并排分析，例如：

当你至少有两条 completed run，并且心里有一个明确问题时再打开 Comparison，例如：

当前 alpha 的导出表面刻意保持收敛：

浏览器内直接导出 CSV / JSON 还没有交付。如果你今天就需要原始 JSON，请先导出 .eval752.zip，再解包查看里面的 results.jsonl、run_config.json 和元数据文件。

更多细节见导出结果。