大厂 RAG 架构与取舍。
查看托管、开源、中文企业和低代码 RAG 方案的架构、技术组件、效果数据、适用场景和限制。
Assistants API / Responses file search
文件先进入托管向量存储,由平台完成解析、切分、嵌入和索引。应用通过 Assistants 或 Responses 调用 file search 工具,模型在生成前读取相关片段并返回引用。适合把客服知识库、产品文档和内部手册快速接入对话式应用。团队主要配置文件生命周期、权限边界、提示词和工具策略,而不是自己维护 ANN 索引。
优势
接入成本低,原型通常 1-3 天可完成
引用链路和工具调用体验一致
通用英文与多语言问答质量稳定
取舍
底层索引参数可控性较低
大规模文件存储和高频模型调用会推高成本
复杂 ACL 与私有化部署需要额外架构
效果数据
典型首答延迟 1.0-2.4 秒
托管方案可减少约 50-70% 检索基础设施代码
中小知识库每千次问答估算 $8-$25,取决于模型与上下文长度
适用场景
SaaS 产品内知识助手
内部文档问答和客服建议
需要快速上线、少维护检索基础设施的团队
限制
强索引调参、私有化部署、跨系统细粒度权限不是默认强项
极低延迟或极低成本批处理场景不适合作为唯一方案
质量
88
延迟
76
成本
71
控制
64
Claude 企业 RAG 模式
Claude 常用于证据优先的企业 RAG:检索系统先取回政策、合同或知识片段,再把证据放在问题之前,要求模型只基于证据回答。长上下文能力让它能处理较长政策包或多文档对比,但高质量系统仍需要外部检索、过滤和重排序。工具调用用于连接实时系统,生成层负责解释和合成。企业通常把 Claude 放在已有搜索平台、权限系统和审计系统之后。
优势
长文档综合能力强
拒答和保守表达适合高风险问答
多证据推理和文档比较表现稳健
取舍
检索、索引和数据治理多由客户自建
长上下文会带来更高延迟和 token 成本
需要严格提示词和引用校验避免过度概括
效果数据
复杂文档问答 p95 常见 2-5 秒
长上下文可减少 20-40% 二次检索次数
高价值场景每千次问答估算 $15-$60
适用场景
合规政策问答
合同审阅和多文档归纳
需要谨慎语气和引用约束的企业助手
限制
不适合完全依赖长上下文替代检索
对实时数据仍需工具调用和权限校验
质量
90
延迟
70
成本
66
控制
78
FAISS + 开放检索栈
Meta 生态的典型方案以 FAISS 为向量索引核心,外接解析、嵌入、元数据过滤和 LLM 服务。团队可以选择 Flat、HNSW、IVF-PQ 等索引,在召回率、内存和延迟之间细调。它适合有平台工程能力、需要高吞吐或私有化控制的组织。生成层可以使用开源模型或商业模型,RAG 编排由应用侧实现。
优势
索引控制力高,ANN 性能成熟
可私有化部署,数据边界清晰
适合亿级向量和离线评测
取舍
需要检索和运维专家
引用、评估、权限、生成编排需要自行建设
参数调优和索引重建流程复杂
效果数据
HNSW 百万级向量 p95 可低于 80 ms
IVF-PQ 可节省 60-85% 向量内存
自托管成本在稳定高流量下可下降 30% 以上
适用场景
私有化企业搜索
超大规模向量检索
需要精细调参或研究型 RAG 的团队
限制
低代码团队不适合直接采用
上线周期通常以周计,需要补齐观测和治理
质量
82
延迟
88
成本
83
控制
95
RAG 数据框架
LlamaIndex 以数据连接和索引抽象为中心,把文档加载成节点,再附加元数据、索引和查询引擎。它提供句子窗口、父子节点、路由检索、子问题查询和评估器,便于快速组合复杂 RAG。生产中常把 LlamaIndex 作为应用编排层,底层连接向量库、对象存储、模型网关和追踪系统。它适合把多种数据源组织成可查询知识层。
优势
RAG 抽象丰富,适合原型到中型生产
评估和节点级元数据能力完整
多数据源接入速度快
取舍
抽象层多时需要工程规范
版本升级要锁定依赖并回归评测
高并发场景需要自行优化缓存和服务化
效果数据
原型搭建可缩短约 40-60% 时间
句子窗口常带来 5-12 点上下文相关性提升
中等规模部署每月云成本约 $500-$3000
适用场景
多数据源知识助手
实验型 RAG 架构验证
需要快速尝试 chunking 和 retriever 组合的团队
限制
不是完整托管平台
大型组织仍需补齐权限、CI 评测和服务治理
质量
86
延迟
74
成本
78
控制
86
可组合 RAG 链路
LangChain 把加载器、切分器、向量库、检索器、提示词、模型和工具编排成可组合链路。LCEL 适合声明式串联 RAG 流程,LangGraph 适合带状态、分支和循环的代理式检索。LangSmith 提供 tracing、数据集评测和线上样本回放。生产团队常把它作为编排与观测层,底层仍使用独立向量库和模型网关。
优势
集成生态广,模型和向量库切换方便
LangSmith 对调试和评测帮助大
适合复杂工作流和代理式 RAG
取舍
选择过多会导致链路膨胀
需要团队约定组件边界
极致性能场景可能需要下沉到自研服务
效果数据
追踪可减少约 30-50% RAG 调试时间
复杂链路 p95 常见 1.5-4 秒
托管观测与模型成本按调用量增长
适用场景
多模型编排
带工具和分支的 RAG 工作流
需要追踪评测闭环的应用团队
限制
不应把所有业务逻辑堆入链中
高并发路径要显式做缓存、批处理和超时控制
质量
84
延迟
72
成本
76
控制
88
千帆知识库 / 文心模型
千帆方案面向中文企业知识库,通常从 Office、PDF、网页和业务文档解析开始,建立带权限的知识库。检索层针对中文术语、业务编号和混合语料做优化,生成层使用文心系列模型输出带来源的答案。平台能力覆盖模型、知识库、应用发布和监控。它适合已有百度云或本地合规要求较强的中文组织。
优势
中文文档和本地生态适配好
企业权限与控制台能力完整
适合客服、政企和内部知识场景
取舍
跨云迁移成本较高
英文和全球化语料效果取决于具体配置
深度定制受平台能力边界影响
效果数据
中文政策问答准确率常见 75-88%
典型首答延迟 1.2-3 秒
中等知识库月成本约数千到数万元人民币
适用场景
政企知识问答
中文客服助手
需要本地云生态和合规审计的项目
限制
海外多语言场景需单独评测
高度自研检索策略可能需要绕开托管默认能力
质量
84
延迟
78
成本
74
控制
70
通义 / 百炼知识应用
通义百炼类知识应用把文档智能解析、知识库检索、工作流路由和通义模型生成组合在一起。开发者可以配置知识库、提示词、插件和业务流程,用于客服、销售支持和内部运营。阿里云生态让它容易连接存储、日志、网关和企业应用。架构上更偏平台化交付,适合在云上快速搭建多应用。
优势
中文企业流程和云资源集成顺畅
模型选择和工具生态丰富
低代码应用交付效率高
取舍
最佳体验依赖阿里云生态
复杂评测和自定义 ranking 需要额外工程
跨平台治理需要统一规范
效果数据
知识应用上线周期可从数周降到数天
混合检索可提升 8-15 点中文术语召回
典型 p95 延迟约 2-4 秒
适用场景
销售资料助手
电商和客服知识库
阿里云上已有数据与应用的企业
限制
不适合要求完全脱离云平台的部署
强研究型索引调参空间有限
质量
85
延迟
79
成本
73
控制
72
Coze 知识工作流
Coze 类方案以机器人和工作流为入口,把知识库检索节点、工具节点和多轮对话节点串起来。产品经理或运营可以低代码配置意图路由、知识引用和渠道发布,快速做面向用户的助手。检索细节相对托管,应用层更关注流程和体验。它适合轻量业务自动化、营销问答和多渠道机器人。
优势
低代码搭建快,适合业务团队迭代
多渠道发布和工作流体验好
工具插件让机器人能连接业务动作
取舍
底层检索透明度有限
复杂企业权限和评测体系需外接
大规模知识治理能力取决于平台版本
效果数据
简单机器人 1 天内可上线试运行
常见问答自动化率可达 30-55%
托管低代码成本低,但高调用量需预算控制
适用场景
营销活动助手
轻量客服机器人
业务团队自助搭建知识工作流
限制
不适合作为核心合规决策系统
需要强索引控制或私有评测时要外接平台
质量
81
延迟
80
成本
77
控制
66
开源 LLM 应用平台
Dify 提供开源可部署的 LLM 应用平台,知识库、工作流、提示词、模型接入和应用发布都在同一控制台中。数据集被切分和索引后可绑定到聊天应用或流程节点,开发者能看到检索设置和调用日志。它适合希望自托管又不想从零开发应用控制台的团队。生产部署时通常搭配独立数据库、向量库、对象存储和网关。
优势
开源可控,部署选择灵活
应用搭建和知识库操作直观
适合团队统一管理多模型应用
取舍
大规模高可用需要认真设计基础设施
高级检索质量仍依赖模型和重排序选择
二次开发要跟随版本演进
效果数据
自托管可降低 20-40% 平台软件成本
启用重排序后准确率常提升 6-14 点
中小团队月基础设施成本约 $300-$2500
适用场景
企业内部 LLM 应用平台
多部门知识助手
需要可视化工作流和自托管的团队
限制
不是免运维 SaaS
高并发、多租户和合规审计需要补充工程
质量
82
延迟
76
成本
82
控制
84
中文知识库 RAG 平台
FastGPT 面向中文知识库问答和工作流应用,提供数据集、检索配置、流程编排和发布能力。团队可以上传文档、配置分段与检索方式,再把知识库接入聊天窗口或 API。它在中文社区实践较多,适合中小企业和团队快速搭建内部助手。复杂场景可通过工作流节点连接外部接口和业务逻辑。
优势
中文 RAG 使用门槛低
数据集和检索配置清晰
部署方式灵活,社区案例丰富
取舍
效果高度依赖文档整理和检索参数
企业级治理能力要按部署方案补齐
复杂多租户需要额外权限设计
效果数据
常见知识库问答首答 1-3 秒
合理混合检索可提升 10 点以上中文召回
小团队自托管成本可控制在每月数百到数千元人民币
适用场景
内部规章制度问答
中文客服知识库
预算有限但需要可控部署的团队
限制
超大规模索引和严格合规需专项架构
多语言全球知识库要重新评测模型与检索
质量
80
延迟
78
成本
84
控制
82