高级功能
本页把“当前 alpha 已交付的功能”和“仍在 roadmap 中的能力”明确分开。
当前 Alpha 已支持
Variations 测试
当前 alpha 的 run launcher 已支持 per-item variations。
- 打开
Runs。 - 发起一条 run,并提高
Variations per item。 - 等 run 完成。
- 在
Comparison中查看已 settle 的指标。
适用场景:
- 测 prompt 敏感性
- 识别措辞相关回归
- 用 variation-heavy rerun 对照 baseline run
定时评测
当前 alpha UI 已支持定时评测。
- 打开
Schedules。 - 创建一次性或循环 run。
- 复用已保存 provider models 和 dataset 选择。
- 从
Dashboard、Runs和Comparison回看结果。
当前操作路径见 定时评测。
Browser Harness
Browser Harness 已经是当前 alpha 的正式能力。
当目标 LLM 只能通过浏览器 UI 访问时,用它:
- 打开
Browser Harness。 - 为某个 dataset 切片生成 prompt-only signed pack。
- 在 ChatGPT、Gemini 或自定义聊天 UI 上运行导出的脚本。
- 把生成的
.eval752.zip再导回 eval_752。
当前 Browser Harness 的约束:
- 只抓文本
- 只抓主响应
- 不把答案或 checker 逻辑发送到第三方页面
- 导入时源 dataset 仍必须存在于当前工作区
具体操作见 Browser Harness。
独立 Judge Providers
当前 alpha 的 run launcher 和 Browser Harness importer 都支持显式 judge provider,它可以和 run provider 不同。
适合这类情况:
- 你希望一个 provider 负责回答
- 但想用另一个 provider / model 组合来评判结果
run 详情面板会展示实际生效的 judge provider、judge model 和评分 prompt 来源。
多模态数据集
当前 alpha 已支持:
- 文本输入
- provider 路径可执行的嵌入图片或远程图片
- 通过
.eval752.zip导出 / 导入可复现数据集包
仍在规划中的内容:
- 音频
- 视频
- 更丰富的外部发布工作流
详情见 Dataset Format。
还在 Roadmap、尚未交付
Arena Pairwise Ranking
Arena pairwise judging 和 leaderboard 发布还不是当前 alpha 的一部分。
- 隐藏的
/leaderboard路由只是 roadmap / scope 页面,不是正式排名界面。 - 当前请使用
Runs看执行态,用Comparison看已 settle 的分析。 - Pairwise judgments、Bradley-Terry / Elo 聚合和公开排名,要等专门的 Arena pipeline 完成后才会上线。
自定义评分函数
自定义 Python scoring hooks 仍属于 roadmap。当前 alpha 重点仍是内建程序化评分、judge 流程以及适合比较分析的汇总结果。
