eval_752 — 量化降智，LLM 定分枪

开源 · 自托管 · 本地优先

量化降智，LLM 定分枪

eval_752 是一套本地优先的大模型评测平台。把测试跑在自己的机器上，用同一套数据集横向对比不同提供商。大模型有没有悄悄变笨？有没有挂羊头卖狗肉？不要凭感觉，用数据和证据说话。

eval_752 控制台

把活跃运行、最近结果和工作区健康状况放在同一个控制面里。

为什么要自己评测

大模型 API 通常是一个“黑盒”。厂商可以在不发布任何公告的情况下悄悄更换底层模型、降低推理算力来节省成本，甚至对高频用户做“静默降级”。当你感觉模型变笨时，你需要确凿的证据。

eval_752 将核验动作融入评测的基础流程中：在跑基准前先做连通性测试，记录确切的模型标识符；使用同一套提示词对比多家厂商；最后输出可供任何人复查和审计的评测包。

研究发现，第三方 API 提供的模型经常与宣称的不符——性能差距最高可达 47%，且在指纹验证中表现出大范围的身份不一致。

工作流程

文档入口

文档按阅读者的角色进行组织。如果你想尽快把系统跑起来并完成首次评测，请看“操作者”路径；如果你要进行二次开发、了解代码架构，请看“构建者”路径。

拉起 Docker、接入 Provider 并跑通第一次测试。

全面了解数据集、运行实例、定时任务和导出功能。

探讨系统配置、服务监控、安全性与数据备份。

理解内部的评测范式、评分策略以及可复现性的设计边界。

系统架构、本地测试策略与代码贡献指南。

REST 协议、SSE 事件流与底层数据模型。

基于 Docker、FastAPI、React、PostgreSQL、Redis、Celery 与 LiteLLM 构建。我们更相信可复现的真实数据，而不是厂商的营销话术。