高级功能

本页把“当前 alpha 已交付的功能”和“仍在 roadmap 中的能力”明确分开。

当前 Alpha 已支持

Variations 测试

当前 alpha 的 run launcher 已支持 per-item variations。

  1. 打开 Runs
  2. 发起一条 run,并提高 Variations per item
  3. 等 run 完成。
  4. Comparison 中查看已 settle 的指标。

适用场景:

  • 测 prompt 敏感性
  • 识别措辞相关回归
  • 用 variation-heavy rerun 对照 baseline run

定时评测

当前 alpha UI 已支持定时评测。

  1. 打开 Schedules
  2. 创建一次性或循环 run。
  3. 复用已保存 provider models 和 dataset 选择。
  4. DashboardRunsComparison 回看结果。

当前操作路径见 定时评测

Browser Harness

Browser Harness 已经是当前 alpha 的正式能力。

当目标 LLM 只能通过浏览器 UI 访问时,用它:

  1. 打开 Browser Harness
  2. 为某个 dataset 切片生成 prompt-only signed pack。
  3. 在 ChatGPT、Gemini 或自定义聊天 UI 上运行导出的脚本。
  4. 把生成的 .eval752.zip 再导回 eval_752。

当前 Browser Harness 的约束:

  • 只抓文本
  • 只抓主响应
  • 不把答案或 checker 逻辑发送到第三方页面
  • 导入时源 dataset 仍必须存在于当前工作区

具体操作见 Browser Harness

独立 Judge Providers

当前 alpha 的 run launcher 和 Browser Harness importer 都支持显式 judge provider,它可以和 run provider 不同。

适合这类情况:

  • 你希望一个 provider 负责回答
  • 但想用另一个 provider / model 组合来评判结果

run 详情面板会展示实际生效的 judge provider、judge model 和评分 prompt 来源。

多模态数据集

当前 alpha 已支持:

  • 文本输入
  • provider 路径可执行的嵌入图片或远程图片
  • 通过 .eval752.zip 导出 / 导入可复现数据集包

仍在规划中的内容:

  • 音频
  • 视频
  • 更丰富的外部发布工作流

详情见 Dataset Format

还在 Roadmap、尚未交付

Arena Pairwise Ranking

Arena pairwise judging 和 leaderboard 发布还不是当前 alpha 的一部分。

  • 隐藏的 /leaderboard 路由只是 roadmap / scope 页面,不是正式排名界面。
  • 当前请使用 Runs 看执行态,用 Comparison 看已 settle 的分析。
  • Pairwise judgments、Bradley-Terry / Elo 聚合和公开排名,要等专门的 Arena pipeline 完成后才会上线。

自定义评分函数

自定义 Python scoring hooks 仍属于 roadmap。当前 alpha 重点仍是内建程序化评分、judge 流程以及适合比较分析的汇总结果。