核心概念
在开始跑评测之前,了解几个反复出现的概念会有帮助。
这些页面不是使用 eval_752 的前提条件——用户指南 是任务导向的,可以直接上手。但当你想理解「为什么是这样设计的」,这里就是答案所在。
本节内容
- 评测类型 — eval_752 能评分哪些类型的题目?每种类型适用于什么场景?
- 评分方式 — 程序化匹配 vs LLM 裁判 vs 对战擂台——各自的权衡和选择时机。
- 数据集格式 — 题目、答案、元数据在 eval_752 内部的结构。
- 可复现性 —
.eval752.zip 包保存了什么、没保存什么,以及如何思考证据质量。