核心概念

在开始跑评测之前,了解几个反复出现的概念会有帮助。

这些页面不是使用 eval_752 的前提条件——用户指南 是任务导向的,可以直接上手。但当你想理解「为什么是这样设计的」,这里就是答案所在。

本节内容

  • 评测类型 — eval_752 能评分哪些类型的题目?每种类型适用于什么场景?
  • 评分方式 — 程序化匹配 vs LLM 裁判 vs 对战擂台——各自的权衡和选择时机。
  • 数据集格式 — 题目、答案、元数据在 eval_752 内部的结构。
  • 可复现性.eval752.zip 包保存了什么、没保存什么,以及如何思考证据质量。