高级功能

本页把“当前 alpha 已交付的功能”和“仍在 roadmap 中的能力”明确分开。

当前 Alpha 已支持

Variations 测试

当前 alpha 的 run launcher 已支持 per-item variations。

打开 Runs。
发起一条 run，并提高 Variations per item。
等 run 完成。
在 Comparison 中查看已 settle 的指标。

适用场景：

测 prompt 敏感性
识别措辞相关回归
用 variation-heavy rerun 对照 baseline run

定时评测

当前 alpha UI 已支持定时评测。

打开 Schedules。
创建一次性或循环 run。
复用已保存 provider models 和 dataset 选择。
从 Dashboard、Runs 和 Comparison 回看结果。

当前操作路径见定时评测。

Browser Harness

Browser Harness 已经是当前 alpha 的正式能力。

当目标 LLM 只能通过浏览器 UI 访问时，用它：

打开 Browser Harness。
为某个 dataset 切片生成 prompt-only signed pack。
在 ChatGPT、Gemini 或自定义聊天 UI 上运行导出的脚本。
把生成的 .eval752.zip 再导回 eval_752。

当前 Browser Harness 的约束：

只抓文本
只抓主响应
不把答案或 checker 逻辑发送到第三方页面
导入时源 dataset 仍必须存在于当前工作区

具体操作见 Browser Harness。

独立 Judge Providers

当前 alpha 的 run launcher 和 Browser Harness importer 都支持显式 judge provider，它可以和 run provider 不同。

适合这类情况：

你希望一个 provider 负责回答
但想用另一个 provider / model 组合来评判结果

run 详情面板会展示实际生效的 judge provider、judge model 和评分 prompt 来源。

多模态数据集

当前 alpha 已支持：

文本输入
provider 路径可执行的嵌入图片或远程图片
通过 .eval752.zip 导出 / 导入可复现数据集包

仍在规划中的内容：

音频
视频
更丰富的外部发布工作流

详情见 Dataset Format。

还在 Roadmap、尚未交付

Arena Pairwise Ranking

Arena pairwise judging 和 leaderboard 发布还不是当前 alpha 的一部分。

隐藏的 /leaderboard 路由只是 roadmap / scope 页面，不是正式排名界面。
当前请使用 Runs 看执行态，用 Comparison 看已 settle 的分析。
Pairwise judgments、Bradley-Terry / Elo 聚合和公开排名，要等专门的 Arena pipeline 完成后才会上线。

自定义评分函数

自定义 Python scoring hooks 仍属于 roadmap。当前 alpha 重点仍是内建程序化评分、judge 流程以及适合比较分析的汇总结果。

#高级功能

#当前 Alpha 已支持

#Variations 测试

#定时评测

#Browser Harness

#独立 Judge Providers

#多模态数据集

#还在 Roadmap、尚未交付

#Arena Pairwise Ranking

#自定义评分函数