评分方式

eval_752 使用三种评分方式。每种在成本、确定性和灵活性上有不同的权衡。

快速对比

基于规则的评分，在本地运行。不需要 API 调用。

工作原理:

适用场景: 只要「正确答案」可以被精确定义。选择题基准、数学题、事实查找。这是默认且最快的评分路径。

权衡: 无法处理细微差异。如果模型用意外的格式给出了正确答案，程序化评分可能会判为错误。

使用另一个 LLM 来评估回答是否满足给定的评判标准。

工作原理:

裁判 prompt 设计为严格模式——只输出 1 或 0，不输出解释。这使结果更易于汇总和比较。

适用场景: 没有单一正确字符串的自由文本任务——摘要、解释、翻译、创意写作。也适用于「正确」意味着「满足这些标准」而非「与答案完全一致」的情况。

权衡:

你可以为裁判配置与被评测模型不同的 Provider。例如使用 GPT-4o 做裁判，同时评测其他模型。

将两个模型的回答并排比较。裁判选出更好的或判为平局。

工作原理:

适用场景: 关心相对质量而非绝对正确性的场景。「模型 A 写邮件比模型 B 好吗？」无法用精确匹配回答——但对战比较可以。

权衡:

即将推出

Arena 模式正在积极开发中。对战评分管道已存在，但完整的排行榜 UI 尚未可用。

对大多数刚上手的用户：程序化评分 + 选择题数据集 是比较 Provider 最快、最便宜、最确定的方式。

关于在启动 Run 时如何配置评分，请参见运行评测。