厂商与框架地图

大厂 RAG 架构与取舍。

查看托管、开源、中文企业和低代码 RAG 方案的架构、技术组件、效果数据、适用场景和限制。

OpenAI

Assistants API / Responses file search

文件先进入托管向量存储，由平台完成解析、切分、嵌入和索引。应用通过 Assistants 或 Responses 调用 file search 工具，模型在生成前读取相关片段并返回引用。适合把客服知识库、产品文档和内部手册快速接入对话式应用。团队主要配置文件生命周期、权限边界、提示词和工具策略，而不是自己维护 ANN 索引。

托管文件解析

向量存储

混合检索

引用标注

工具调用

流式生成

安全策略

模型网关

优势

接入成本低，原型通常 1-3 天可完成

引用链路和工具调用体验一致

通用英文与多语言问答质量稳定

取舍

底层索引参数可控性较低

大规模文件存储和高频模型调用会推高成本

复杂 ACL 与私有化部署需要额外架构

效果数据

典型首答延迟 1.0-2.4 秒

托管方案可减少约 50-70% 检索基础设施代码

中小知识库每千次问答估算 $8-$25，取决于模型与上下文长度

适用场景

SaaS 产品内知识助手

内部文档问答和客服建议

需要快速上线、少维护检索基础设施的团队

限制

强索引调参、私有化部署、跨系统细粒度权限不是默认强项

极低延迟或极低成本批处理场景不适合作为唯一方案

质量

延迟

成本

控制

Anthropic

Claude 企业 RAG 模式

Claude 常用于证据优先的企业 RAG：检索系统先取回政策、合同或知识片段，再把证据放在问题之前，要求模型只基于证据回答。长上下文能力让它能处理较长政策包或多文档对比，但高质量系统仍需要外部检索、过滤和重排序。工具调用用于连接实时系统，生成层负责解释和合成。企业通常把 Claude 放在已有搜索平台、权限系统和审计系统之后。

证据优先提示词

长上下文

工具使用

引用约束

客户自管检索

安全拒答

上下文压缩

审计日志

优势

长文档综合能力强

拒答和保守表达适合高风险问答

多证据推理和文档比较表现稳健

取舍

检索、索引和数据治理多由客户自建

长上下文会带来更高延迟和 token 成本

需要严格提示词和引用校验避免过度概括

效果数据

复杂文档问答 p95 常见 2-5 秒

长上下文可减少 20-40% 二次检索次数

高价值场景每千次问答估算 $15-$60

适用场景

合规政策问答

合同审阅和多文档归纳

需要谨慎语气和引用约束的企业助手

限制

不适合完全依赖长上下文替代检索

对实时数据仍需工具调用和权限校验

质量

延迟

成本

控制

FAISS + 开放检索栈

Meta 生态的典型方案以 FAISS 为向量索引核心，外接解析、嵌入、元数据过滤和 LLM 服务。团队可以选择 Flat、HNSW、IVF-PQ 等索引，在召回率、内存和延迟之间细调。它适合有平台工程能力、需要高吞吐或私有化控制的组织。生成层可以使用开源模型或商业模型，RAG 编排由应用侧实现。

FAISS

HNSW

IVF-PQ

自托管嵌入

元数据存储

批量索引构建

GPU/CPU 检索

开源 LLM

优势

索引控制力高，ANN 性能成熟

可私有化部署，数据边界清晰

适合亿级向量和离线评测

取舍

需要检索和运维专家

引用、评估、权限、生成编排需要自行建设

参数调优和索引重建流程复杂

效果数据

HNSW 百万级向量 p95 可低于 80 ms

IVF-PQ 可节省 60-85% 向量内存

自托管成本在稳定高流量下可下降 30% 以上

适用场景

私有化企业搜索

超大规模向量检索

需要精细调参或研究型 RAG 的团队

限制

低代码团队不适合直接采用

上线周期通常以周计，需要补齐观测和治理

质量

延迟

成本

控制

LlamaIndex

RAG 数据框架

LlamaIndex 以数据连接和索引抽象为中心，把文档加载成节点，再附加元数据、索引和查询引擎。它提供句子窗口、父子节点、路由检索、子问题查询和评估器，便于快速组合复杂 RAG。生产中常把 LlamaIndex 作为应用编排层，底层连接向量库、对象存储、模型网关和追踪系统。它适合把多种数据源组织成可查询知识层。

Readers

Node parsers

VectorStoreIndex

Retriever

ResponseSynthesizer

Reranker

Evaluators

Agent tools

优势

RAG 抽象丰富，适合原型到中型生产

评估和节点级元数据能力完整

多数据源接入速度快

取舍

抽象层多时需要工程规范

版本升级要锁定依赖并回归评测

高并发场景需要自行优化缓存和服务化

效果数据

原型搭建可缩短约 40-60% 时间

句子窗口常带来 5-12 点上下文相关性提升

中等规模部署每月云成本约 $500-$3000

适用场景

多数据源知识助手

实验型 RAG 架构验证

需要快速尝试 chunking 和 retriever 组合的团队

限制

不是完整托管平台

大型组织仍需补齐权限、CI 评测和服务治理

质量

延迟

成本

控制

LangChain

可组合 RAG 链路

LangChain 把加载器、切分器、向量库、检索器、提示词、模型和工具编排成可组合链路。LCEL 适合声明式串联 RAG 流程，LangGraph 适合带状态、分支和循环的代理式检索。LangSmith 提供 tracing、数据集评测和线上样本回放。生产团队常把它作为编排与观测层，底层仍使用独立向量库和模型网关。

Document loaders

Text splitters

Vector stores

Retrievers

LCEL

LangGraph

LangSmith

Model adapters

优势

集成生态广，模型和向量库切换方便

LangSmith 对调试和评测帮助大

适合复杂工作流和代理式 RAG

取舍

选择过多会导致链路膨胀

需要团队约定组件边界

极致性能场景可能需要下沉到自研服务

效果数据

追踪可减少约 30-50% RAG 调试时间

复杂链路 p95 常见 1.5-4 秒

托管观测与模型成本按调用量增长

适用场景

多模型编排

带工具和分支的 RAG 工作流

需要追踪评测闭环的应用团队

限制

不应把所有业务逻辑堆入链中

高并发路径要显式做缓存、批处理和超时控制

质量

延迟

成本

控制

百度

千帆知识库 / 文心模型

千帆方案面向中文企业知识库，通常从 Office、PDF、网页和业务文档解析开始，建立带权限的知识库。检索层针对中文术语、业务编号和混合语料做优化，生成层使用文心系列模型输出带来源的答案。平台能力覆盖模型、知识库、应用发布和监控。它适合已有百度云或本地合规要求较强的中文组织。

中文文档解析

知识库管理

BGE 风格检索

权限过滤

文心生成

重排序

企业控制台

安全审计

优势

中文文档和本地生态适配好

企业权限与控制台能力完整

适合客服、政企和内部知识场景

取舍

跨云迁移成本较高

英文和全球化语料效果取决于具体配置

深度定制受平台能力边界影响

效果数据

中文政策问答准确率常见 75-88%

典型首答延迟 1.2-3 秒

中等知识库月成本约数千到数万元人民币

适用场景

政企知识问答

中文客服助手

需要本地云生态和合规审计的项目

限制

海外多语言场景需单独评测

高度自研检索策略可能需要绕开托管默认能力

质量

延迟

成本

控制

阿里

通义 / 百炼知识应用

通义百炼类知识应用把文档智能解析、知识库检索、工作流路由和通义模型生成组合在一起。开发者可以配置知识库、提示词、插件和业务流程，用于客服、销售支持和内部运营。阿里云生态让它容易连接存储、日志、网关和企业应用。架构上更偏平台化交付，适合在云上快速搭建多应用。

文档智能

混合检索

通义千问

工作流应用

插件工具

权限集成

应用评测

云监控

优势

中文企业流程和云资源集成顺畅

模型选择和工具生态丰富

低代码应用交付效率高

取舍

最佳体验依赖阿里云生态

复杂评测和自定义 ranking 需要额外工程

跨平台治理需要统一规范

效果数据

知识应用上线周期可从数周降到数天

混合检索可提升 8-15 点中文术语召回

典型 p95 延迟约 2-4 秒

适用场景

销售资料助手

电商和客服知识库

阿里云上已有数据与应用的企业

限制

不适合要求完全脱离云平台的部署

强研究型索引调参空间有限

质量

延迟

成本

控制

字节

Coze 知识工作流

Coze 类方案以机器人和工作流为入口，把知识库检索节点、工具节点和多轮对话节点串起来。产品经理或运营可以低代码配置意图路由、知识引用和渠道发布，快速做面向用户的助手。检索细节相对托管，应用层更关注流程和体验。它适合轻量业务自动化、营销问答和多渠道机器人。

Bot 编排

知识库

工作流节点

多智能体

插件工具

渠道发布

低代码调试

会话分析

优势

低代码搭建快，适合业务团队迭代

多渠道发布和工作流体验好

工具插件让机器人能连接业务动作

取舍

底层检索透明度有限

复杂企业权限和评测体系需外接

大规模知识治理能力取决于平台版本

效果数据

简单机器人 1 天内可上线试运行

常见问答自动化率可达 30-55%

托管低代码成本低，但高调用量需预算控制

适用场景

营销活动助手

轻量客服机器人

业务团队自助搭建知识工作流

限制

不适合作为核心合规决策系统

需要强索引控制或私有评测时要外接平台

质量

延迟

成本

控制

Dify

开源 LLM 应用平台

Dify 提供开源可部署的 LLM 应用平台，知识库、工作流、提示词、模型接入和应用发布都在同一控制台中。数据集被切分和索引后可绑定到聊天应用或流程节点，开发者能看到检索设置和调用日志。它适合希望自托管又不想从零开发应用控制台的团队。生产部署时通常搭配独立数据库、向量库、对象存储和网关。

Datasets

混合检索

Rerankers

Workflow

Prompt 版本

应用观测

模型供应商

API 发布

优势

开源可控，部署选择灵活

应用搭建和知识库操作直观

适合团队统一管理多模型应用

取舍

大规模高可用需要认真设计基础设施

高级检索质量仍依赖模型和重排序选择

二次开发要跟随版本演进

效果数据

自托管可降低 20-40% 平台软件成本

启用重排序后准确率常提升 6-14 点

中小团队月基础设施成本约 $300-$2500

适用场景

企业内部 LLM 应用平台

多部门知识助手

需要可视化工作流和自托管的团队

限制

不是免运维 SaaS

高并发、多租户和合规审计需要补充工程

质量

延迟

成本

控制

FastGPT

中文知识库 RAG 平台

FastGPT 面向中文知识库问答和工作流应用，提供数据集、检索配置、流程编排和发布能力。团队可以上传文档、配置分段与检索方式，再把知识库接入聊天窗口或 API。它在中文社区实践较多，适合中小企业和团队快速搭建内部助手。复杂场景可通过工作流节点连接外部接口和业务逻辑。

数据集管理

中文混合检索

工作流编排

重排序

聊天应用

API 接入

权限设置

反馈标注

优势

中文 RAG 使用门槛低

数据集和检索配置清晰

部署方式灵活，社区案例丰富

取舍

效果高度依赖文档整理和检索参数

企业级治理能力要按部署方案补齐

复杂多租户需要额外权限设计

效果数据

常见知识库问答首答 1-3 秒

合理混合检索可提升 10 点以上中文召回

小团队自托管成本可控制在每月数百到数千元人民币

适用场景

内部规章制度问答

中文客服知识库

预算有限但需要可控部署的团队

限制

超大规模索引和严格合规需专项架构

多语言全球知识库要重新评测模型与检索

质量

延迟

成本

控制