定时评测
当你希望 eval_752 在未来某个时间点,或按固定节奏自动发起 runs 时,就用 Schedules 页面。
只有在你已经通过交互式方式确认 provider、dataset 和 run 配置可靠之后,才应该使用它。Schedule 是对既有工作流的放大器,不是第一次验证链路的替代品。
当前 Alpha 支持什么
- 指定未来日期时间的一次性 schedule
- 带可视化 RRULE builder 的循环 schedule
- 时区选择
- 已保存 provider model 建议
- 可选的 run config JSON
- 在同一页面上 pause / resume / delete
创建一次性 Schedule
- 打开
Schedules。 - 选择 One time。
- 输入 schedule 名称。
- 选择 provider、dataset 和 model name。
- 设定本地日期 / 时间,并确认目标时区。
- 按需附加 JSON run config。
- 保存 schedule。
后端会把 schedule 存起来,并在计划时间到达时自动创建 run。
适合这类场景:
- “明天早上部署完成后再跑一次这个 benchmark”
- “今晚切流后补一次确认”
创建循环 Schedule
- 打开
Schedules。 - 选择 Recurring。
- 选择节奏:hourly、daily 或 weekly。
- 设定 interval;如果是 daily / weekly,再设定本地执行时间。
- 对 weekly schedule,选择一个或多个工作日。
- 复核生成的 RRULE 预览。
- 保存 schedule。
如果可视化 builder 不够表达你的规则,可以切换到手动 RRULE 字段,粘贴你想持久化的精确规则。
适合这类场景:
- 趋势跟踪
- 回归巡检
- 固定 benchmark 例行任务
编辑和操作已有 Schedule
从 schedule 列表中你可以:
- 重命名 schedule
- 暂停或重新启用
- 更新模型名或 config JSON
- 修改 RRULE 或一次性时间戳
- 彻底删除 schedule
列表中也会尽可能显示最近一次 run 时间和下一次计划运行时间。
实用建议
- schedule 名称尽量写得有操作语义,后面在 run history 里更容易看懂。
- 当上游模型名很长、容易输错时,尽量复用已保存 provider models。
- 验证新的循环规则时,先用小数据集或采样过的 package。
- 在把某个流程自动化进
Schedules之前,先在Runs中把同一 provider、dataset 和 model 跑通一次。
