核心原则
先测 Precision@K、Recall@K、MRR 和 nDCG,再让 LLM judge 评价答案。
答案评估必须检查忠实度、引用正确率和证据覆盖,防止流畅幻觉。
按语料类型、语言、租户、文档新鲜度和查询意图分层评估。
线上监控要跟踪延迟、成本、拒答率、改问率、引用点击率和人工转接率。
黄金集应定期更新,但不能把线上反馈直接污染固定回归集。
方法对比
| 方法 | 延迟 | 成本 | 最适合 |
|---|---|---|---|
| RAGAS | 中 | 低 | 自动化答案和上下文指标 |
| TruLens | 中 | 中 | Tracing 和反馈函数 |
| 人工黄金集 | 慢 | 高 | 关键质量门禁 |
| 线上遥测 | 持续 | 中 | 生产回归监控 |
大厂与框架实践
RAGAS 推广了 faithfulness、context precision 和 answer relevancy 等指标。
TruLens 关注 RAG 应用 trace 与反馈函数。
成熟企业会为每个业务域维护独立黄金问题集。
客服场景把人工转接率和引用点击率作为线上质量代理指标。
合规场景会抽样审计 chunk 引用是否支持每个关键结论。
关键论文与参考
RAGAS,Es 等,2023
ARES,Saad-Falcon 等,2023
RAG,Lewis 等,2020
KILT,Petroni 等,2021
ALCE,Gao 等,2023
深度讲解
离线评估可拆成 retrieval_score 和 answer_score。检索侧计算 Recall@K = hit_gold / total_gold,nDCG 用排名折损衡量证据是否靠前;生成侧可人工或模型评审 faithfulness、completeness、citation_correctness。建议最小黄金集为 200 条,覆盖 5 个业务域,每次发布要求关键域 Recall@5 不下降超过 2 点。线上则按小时监控 p95 latency、cost_per_answer 和 negative_feedback_rate,出现异常先定位 parser/index/retriever/model 哪一层变化。
最佳实践
固定回归集和线上反馈集分开管理。
每个版本发布都输出检索与生成双报告。
按业务域看指标,不只看全局平均值。