用户指南

本指南覆盖你在 eval_752 中会反复执行的任务:设置 Provider、导入数据集、运行评测和对比结果。

推荐阅读顺序

如果你是新用户,按顺序阅读——每一步都基于前一步:

  1. Provider 管理 — 接入 API 端点并验证连通性
  2. 数据集管理 — 导入或构建评测题库
  3. 运行评测 — 发起 Run 并监控进度
  4. 查看结果 — 理解 Dashboard、Runs 和 Comparison 页面显示的内容
  5. 导出结果 — 保存和分享你的证据

核心流程跑通后,可以探索:

  1. Browser Harness — 评测只能通过网页访问的模型
  2. 定时评测 — 自动化周期性检查
  3. 高级功能 — 裁判评分、变体测试和即将推出的功能
Tip

在能正常完成一次端到端评测之前,不要急着去用定时任务或 Browser Harness。同时调试太多变量会很痛苦。