RAG Playground

核心原则

先测 Precision@K、Recall@K、MRR 和 nDCG,再让 LLM judge 评价答案。
答案评估必须检查忠实度、引用正确率和证据覆盖,防止流畅幻觉。
按语料类型、语言、租户、文档新鲜度和查询意图分层评估。
线上监控要跟踪延迟、成本、拒答率、改问率、引用点击率和人工转接率。
黄金集应定期更新,但不能把线上反馈直接污染固定回归集。

方法对比

方法延迟成本最适合
RAGAS自动化答案和上下文指标
TruLensTracing 和反馈函数
人工黄金集关键质量门禁
线上遥测持续生产回归监控

大厂与框架实践

RAGAS 推广了 faithfulness、context precision 和 answer relevancy 等指标。

TruLens 关注 RAG 应用 trace 与反馈函数。

成熟企业会为每个业务域维护独立黄金问题集。

客服场景把人工转接率和引用点击率作为线上质量代理指标。

合规场景会抽样审计 chunk 引用是否支持每个关键结论。

关键论文与参考

RAGAS,Es 等,2023
ARES,Saad-Falcon 等,2023
RAG,Lewis 等,2020
KILT,Petroni 等,2021
ALCE,Gao 等,2023

深度讲解

离线评估可拆成 retrieval_score 和 answer_score。检索侧计算 Recall@K = hit_gold / total_gold,nDCG 用排名折损衡量证据是否靠前;生成侧可人工或模型评审 faithfulness、completeness、citation_correctness。建议最小黄金集为 200 条,覆盖 5 个业务域,每次发布要求关键域 Recall@5 不下降超过 2 点。线上则按小时监控 p95 latency、cost_per_answer 和 negative_feedback_rate,出现异常先定位 parser/index/retriever/model 哪一层变化。

最佳实践

固定回归集和线上反馈集分开管理。
每个版本发布都输出检索与生成双报告。
按业务域看指标,不只看全局平均值。