定时评测

当你希望 eval_752 在未来某个时间点,或按固定节奏自动发起 runs 时,就用 Schedules 页面。

只有在你已经通过交互式方式确认 provider、dataset 和 run 配置可靠之后,才应该使用它。Schedule 是对既有工作流的放大器,不是第一次验证链路的替代品。

当前 Alpha 支持什么

  • 指定未来日期时间的一次性 schedule
  • 带可视化 RRULE builder 的循环 schedule
  • 时区选择
  • 已保存 provider model 建议
  • 可选的 run config JSON
  • 在同一页面上 pause / resume / delete

创建一次性 Schedule

  1. 打开 Schedules
  2. 选择 One time
  3. 输入 schedule 名称。
  4. 选择 provider、dataset 和 model name。
  5. 设定本地日期 / 时间,并确认目标时区。
  6. 按需附加 JSON run config。
  7. 保存 schedule。

后端会把 schedule 存起来,并在计划时间到达时自动创建 run。

适合这类场景:

  • “明天早上部署完成后再跑一次这个 benchmark”
  • “今晚切流后补一次确认”

创建循环 Schedule

  1. 打开 Schedules
  2. 选择 Recurring
  3. 选择节奏:hourly、daily 或 weekly。
  4. 设定 interval;如果是 daily / weekly,再设定本地执行时间。
  5. 对 weekly schedule,选择一个或多个工作日。
  6. 复核生成的 RRULE 预览。
  7. 保存 schedule。

如果可视化 builder 不够表达你的规则,可以切换到手动 RRULE 字段,粘贴你想持久化的精确规则。

适合这类场景:

  • 趋势跟踪
  • 回归巡检
  • 固定 benchmark 例行任务

编辑和操作已有 Schedule

从 schedule 列表中你可以:

  • 重命名 schedule
  • 暂停或重新启用
  • 更新模型名或 config JSON
  • 修改 RRULE 或一次性时间戳
  • 彻底删除 schedule

列表中也会尽可能显示最近一次 run 时间和下一次计划运行时间。

实用建议

  • schedule 名称尽量写得有操作语义,后面在 run history 里更容易看懂。
  • 当上游模型名很长、容易输错时,尽量复用已保存 provider models。
  • 验证新的循环规则时,先用小数据集或采样过的 package。
  • 在把某个流程自动化进 Schedules 之前,先在 Runs 中把同一 provider、dataset 和 model 跑通一次。