RAG Playground

核心原则

先测 Precision@K、Recall@K、MRR 和 nDCG，再让 LLM judge 评价答案。

答案评估必须检查忠实度、引用正确率和证据覆盖，防止流畅幻觉。

按语料类型、语言、租户、文档新鲜度和查询意图分层评估。

线上监控要跟踪延迟、成本、拒答率、改问率、引用点击率和人工转接率。

黄金集应定期更新，但不能把线上反馈直接污染固定回归集。

方法对比

方法	延迟	成本	最适合
RAGAS	中	低	自动化答案和上下文指标
TruLens	中	中	Tracing 和反馈函数
人工黄金集	慢	高	关键质量门禁
线上遥测	持续	中	生产回归监控

大厂与框架实践

RAGAS 推广了 faithfulness、context precision 和 answer relevancy 等指标。

TruLens 关注 RAG 应用 trace 与反馈函数。

成熟企业会为每个业务域维护独立黄金问题集。

客服场景把人工转接率和引用点击率作为线上质量代理指标。

合规场景会抽样审计 chunk 引用是否支持每个关键结论。

关键论文与参考

RAGAS，Es 等，2023

ARES，Saad-Falcon 等，2023

RAG，Lewis 等，2020

KILT，Petroni 等，2021

ALCE，Gao 等，2023

深度讲解

离线评估可拆成 retrieval_score 和 answer_score。检索侧计算 Recall@K = hit_gold / total_gold，nDCG 用排名折损衡量证据是否靠前；生成侧可人工或模型评审 faithfulness、completeness、citation_correctness。建议最小黄金集为 200 条，覆盖 5 个业务域，每次发布要求关键域 Recall@5 不下降超过 2 点。线上则按小时监控 p95 latency、cost_per_answer 和 negative_feedback_rate，出现异常先定位 parser/index/retriever/model 哪一层变化。

最佳实践

固定回归集和线上反馈集分开管理。

每个版本发布都输出检索与生成双报告。

按业务域看指标，不只看全局平均值。