用户指南
本指南覆盖你在 eval_752 中会反复执行的任务:设置 Provider、导入数据集、运行评测和对比结果。
推荐阅读顺序
如果你是新用户,按顺序阅读——每一步都基于前一步:
- Provider 管理 — 接入 API 端点并验证连通性
- 数据集管理 — 导入或构建评测题库
- 运行评测 — 发起 Run 并监控进度
- 查看结果 — 理解 Dashboard、Runs 和 Comparison 页面显示的内容
- 导出结果 — 保存和分享你的证据
核心流程跑通后,可以探索:
- Browser Harness — 评测只能通过网页访问的模型
- 定时评测 — 自动化周期性检查
- 高级功能 — 裁判评分、变体测试和即将推出的功能
Tip
在能正常完成一次端到端评测之前,不要急着去用定时任务或 Browser Harness。同时调试太多变量会很痛苦。
