可复现性

eval_752 的设计原则之一是：每次评测都应该是可复现的。如果你分享一个结果，接收者应该能验证到底发生了什么。

`.eval752.zip` 保存了什么

导出一次 Run 时，包中包含理解和复现评测所需的一切：

这意味着接收者不需要访问你的 eval_752 实例、Hugging Face 账号或 Provider 密钥就能查看详情。

有些东西本质上是不可复现的：

模型状态: LLM Provider 可以随时更新或替换模型。你今天测试的 gpt-4o 明天可能表现不同。包保存的是模型说了什么，而非跑的是哪个具体权重。
延迟条件: 网络延迟、限流和服务器负载每次都不同。包中的延迟数据反映的是原始测试条件。
Provider 可用性: Provider 端点可能在导出后下线或变更 API 约定。

导出的 .eval752.zip 可以导入另一个 eval_752 实例。导入会创建：

适用场景：

一个高质量的评测结果应具备这些属性：

eval_752 的导出包被设计为满足以上五点。而一张 Dashboard 截图只能满足前两点。

关于导出流程，请参见导出结果。