核心演示

端到端调试一条模拟 RAG 管线。

调整切分、向量模型、索引、召回、重排序、查询改写和 Top-K，实时查看召回片段、指标、回答质量和耗时。

参数面板

调整每个阶段，观察模拟检索质量如何变化。

示例文章问题

中文 · 林知远，企业智能平台架构师

一篇中文技术文章，涵盖预训练、指令微调、RAG、工具调用、幻觉控制、评估与企业落地。

切分策略切分长度：512 tokens重叠长度：96 tokens向量模型索引类型召回方式Top-K：6重排序器查询改写

准确率@K

97%

召回率@K

98%

MRR

98%

nDCG

98%

召回片段

分数和相关性会随参数组合实时变化。

CN-11

大语言模型技术实践 / RAG

99%

RAG 通过先检索企业知识库中的相关片段，再把证据注入上下文，减少模型凭记忆编造答案的空间。关键是召回覆盖、重排序精度和生成阶段的引用约束。

CN-14

大语言模型技术实践 / 中文检索

99%

中文知识库常见专有名词、缩写和业务编号。单纯向量检索容易漏掉精确术语，因此生产系统通常把 BM25 与向量召回融合，再用中文重排序模型筛选证据。

CN-20

大语言模型技术实践 / 评估

88%

企业 LLM 评估应拆分为检索召回率、上下文相关性、答案忠实度、用户满意度和单位成本，避免只看一次性人工打分。

CN-05

大语言模型技术实践 / 微调

72%

指令微调提升模型遵循任务格式的能力，但不能替代知识更新。高频变化的政策、库存和工单信息更适合通过 RAG 注入。

指标画像

耗时分布

模拟回答

基于最相关召回片段生成的有证据回答。

基于片段 CN-11、CN-14、CN-20，RAG 降低幻觉的核心做法是先召回企业知识库证据，再要求模型围绕证据和 chunk ID 生成。CN-11 说明检索后注入上下文能减少凭记忆编造，CN-14 补充中文语料需要融合精确词与语义召回。这里用混合检索同时覆盖语义相似问题和精确业务术语。BGE 重排序把候选证据重新排序，让回答更集中引用高分 chunk。语义切分更强调语义边界，96 token 重叠用于保留相邻证据。当前配置的 Precision@K 为 97%，Recall@K 为 98%，nDCG 为 98%。若证据不足，系统应该拒答或澄清，而不是补写没有来源的结论。

语义切分

BGE-large

HNSW 近似索引

混合检索

BGE 重排序

HyDE 假设答案

文章原文预览

大语言模型技术实践 · 1,750 字