RAG（检索增强生成）— 你需要知道的一切

RAG（Retrieval-Augmented Generation，检索增强生成）是当前大语言模型落地最关键的技术架构之一。核心思路很直接：在模型生成回答之前，先从外部知识库中检索相关文档，把检索结果作为上下文注入 prompt，让模型基于真实数据回答问题。这解决了 LLM 最大的痛点——幻觉和知识过时。无论是企业内部知识问答、客服系统、还是代码文档搜索，RAG 已经成为生产级 AI 应用的标准范式。相比微调（fine-tuning），RAG 不需要重新训练模型，数据更新只需刷新索引，部署成本和迭代速度都有明显优势。

核心架构与组件

一个生产级 RAG 系统通常包含以下环节：

文档处理层：将原始数据（PDF、网页、代码、数据库记录）切分为 chunk。分块策略直接影响检索质量——按语义段落切分通常优于固定长度切分。Markdown 标题、代码函数边界都是天然的分块锚点。

索引与检索层：对 chunk 做 embedding 后存入向量数据库（Pinecone、Weaviate、pgvector 等）。查询时，用户问题同样做 embedding，通过近似最近邻（ANN）搜索找到最相关的文档片段。生产系统通常会加入 reranker（如 Cohere Rerank、cross-encoder 模型）对初步检索结果做二次排序。

生成层：将检索到的 top-K 文档片段拼接到 prompt 中，交给 LLM 生成最终回答。好的 RAG 系统会在回答中标注引用来源，方便用户验证。

评估与监控：用 faithfulness（忠实度）、relevance（相关性）、answer correctness 等指标持续评估系统表现。RAGAS 等框架提供了标准化的评估流程。

关键设计决策包括：chunk 大小（通常 256-1024 token）、top-K 值（3-10）、是否使用 query expansion、是否做 hypothetical document embedding（HyDE）等。这些参数没有万能值，需要根据具体数据和场景调优。

常见问题

目前暂无 RAG 相关的 FAQ 页面。我们正在整理社区中最常见的技术问题——如何选择向量数据库、chunk 大小如何确定、RAG vs 长上下文窗口的取舍等，敬请关注后续更新。

所有 RAG 相关资源

术语表

RAG — 检索增强生成技术详解
Agentic Coding — 智能编程 agent 的工作模式
AI Regulation — AI 监管与合规框架
AI Safety — AI 安全研究与对齐
Autonomous Weapons — 自主武器系统与 AI 伦理

博客文章

觉得有用？订阅 LoreAI，每天 5 分钟掌握 AI 动态。

RAG

RAG（检索增强生成）— 你需要知道的一切

最新进展

核心架构与组件

常见问题

相关对比

所有 RAG 相关资源

术语表

博客文章