RAG Playground
核心演示

端到端调试一条模拟 RAG 管线。

调整切分、向量模型、索引、召回、重排序、查询改写和 Top-K,实时查看召回片段、指标、回答质量和耗时。

参数面板

调整每个阶段,观察模拟检索质量如何变化。

中文 · 林知远,企业智能平台架构师

一篇中文技术文章,涵盖预训练、指令微调、RAG、工具调用、幻觉控制、评估与企业落地。

准确率@K

97%

召回率@K

98%

MRR

98%

nDCG

98%

召回片段

分数和相关性会随参数组合实时变化。

CN-11
大语言模型技术实践 / RAG
99%

RAG 通过先检索企业知识库中的相关片段,再把证据注入上下文,减少模型凭记忆编造答案的空间。关键是召回覆盖、重排序精度和生成阶段的引用约束。

CN-14
大语言模型技术实践 / 中文检索
99%

中文知识库常见专有名词、缩写和业务编号。单纯向量检索容易漏掉精确术语,因此生产系统通常把 BM25 与向量召回融合,再用中文重排序模型筛选证据。

CN-20
大语言模型技术实践 / 评估
88%

企业 LLM 评估应拆分为检索召回率、上下文相关性、答案忠实度、用户满意度和单位成本,避免只看一次性人工打分。

CN-05
大语言模型技术实践 / 微调
72%

指令微调提升模型遵循任务格式的能力,但不能替代知识更新。高频变化的政策、库存和工单信息更适合通过 RAG 注入。

指标画像

耗时分布

模拟回答

基于最相关召回片段生成的有证据回答。

基于片段 CN-11、CN-14、CN-20,RAG 降低幻觉的核心做法是先召回企业知识库证据,再要求模型围绕证据和 chunk ID 生成。CN-11 说明检索后注入上下文能减少凭记忆编造,CN-14 补充中文语料需要融合精确词与语义召回。这里用混合检索同时覆盖语义相似问题和精确业务术语。BGE 重排序把候选证据重新排序,让回答更集中引用高分 chunk。语义切分更强调语义边界,96 token 重叠用于保留相邻证据。当前配置的 Precision@K 为 97%,Recall@K 为 98%,nDCG 为 98%。 若证据不足,系统应该拒答或澄清,而不是补写没有来源的结论。
语义切分
BGE-large
HNSW 近似索引
混合检索
BGE 重排序
HyDE 假设答案

文章原文预览

大语言模型技术实践 · 1,750