RAG 全链路

学习生产级 RAG 管线的每个阶段。

每个页面都会讲清核心原则、参数取舍、厂商实践、关键论文和可落地的最佳实践。

解析把 PDF、网页、Office、图片和表格转成规范文本与结构化元数据。好的解析会保留标题层级、页码、表头、图注和来源锚点，让后续检索能准确引用。

切分决定检索单元，直接影响召回、上下文完整性、延迟、索引大小和重排序成本。

Embedding 把文本、图片或多模态内容映射到向量空间，模型选择决定语义召回、跨语言能力、成本和重建索引频率。

索引组织向量和关键词信号。Flat 强调精确，HNSW 与 IVF-PQ 用少量召回损失换延迟和内存效率。

召回选择候选上下文。向量检索找语义相似，BM25 保留精确词，混合检索兼顾两者，多查询扩展覆盖模糊意图。

重排序器用更强的交叉注意力或 late-interaction 模型重新打分候选，常用于提升 top-context 精度。

生成把证据组织成可读答案。上下文压缩、查询改写、HyDE、Self-RAG 和 CRAG 用于改善输入质量或答案校验。

RAG 评估要拆开检索质量和生成质量，同时关注离线黄金集、线上 trace、忠实度、相关性、延迟和成本。