简体中文

核心概念

在开始跑评测之前，了解几个反复出现的概念会有帮助。

这些页面不是使用 eval_752 的前提条件——用户指南是任务导向的，可以直接上手。但当你想理解「为什么是这样设计的」，这里就是答案所在。

本节内容

评测类型 — eval_752 能评分哪些类型的题目？每种类型适用于什么场景？
评分方式 — 程序化匹配 vs LLM 裁判 vs 对战擂台——各自的权衡和选择时机。
数据集格式 — 题目、答案、元数据在 eval_752 内部的结构。
可复现性 — .eval752.zip 包保存了什么、没保存什么，以及如何思考证据质量。