可复现性

eval_752 的设计原则之一是:每次评测都应该是可复现的。如果你分享一个结果,接收者应该能验证到底发生了什么。

.eval752.zip 保存了什么

导出一次 Run 时,包中包含理解和复现评测所需的一切:

包含内容说明
数据集快照导出时被评测的确切题目
运行配置Provider、模型名称、参数、评分方式
逐题结果每道题的模型回答、评分、延迟和错误详情
元数据eval_752 版本、时间戳 (UTC)、环境信息
资源文件题目引用的图片和文件

这意味着接收者不需要访问你的 eval_752 实例、Hugging Face 账号或 Provider 密钥就能查看详情。

不包含的内容

有些东西本质上是不可复现的:

  • 模型状态: LLM Provider 可以随时更新或替换模型。你今天测试的 gpt-4o 明天可能表现不同。包保存的是模型说了什么,而非跑的是哪个具体权重
  • 延迟条件: 网络延迟、限流和服务器负载每次都不同。包中的延迟数据反映的是原始测试条件。
  • Provider 可用性: Provider 端点可能在导出后下线或变更 API 约定。

重新导入

导出的 .eval752.zip 可以导入另一个 eval_752 实例。导入会创建:

  • 一个数据集(如果只包含数据集部分)
  • 一个带完整结果的已完成 Run(如果包含结果)

适用场景:

  • 与运行自己 eval_752 实例的同事分享证据
  • 为合规或审计归档 Run
  • 跨环境比较 Run

如何思考证据质量

一个高质量的评测结果应具备这些属性:

  1. 身份明确: 你知道用的是哪个 Provider、模型和数据集
  2. 时间确定: 你知道评测是什么时候跑的
  3. 完整无遗: 每道题都有回答和评分,或者有明确的错误记录
  4. 可深入检查: 你可以钻取到任何一道题,看到原始 prompt、回答和评分决策
  5. 可分享验证: 别人可以验证结果,而不只是相信你的话

eval_752 的导出包被设计为满足以上五点。而一张 Dashboard 截图只能满足前两点。

关于导出流程,请参见 导出结果