检索增强生成 (RAG) — 术语表 | 24 AI

**检索增强生成（RAG，Retrieval-Augmented Generation）**是从大型语言模型获取准确、及时答案的主流架构模式。RAG 系统不单纯依赖 LLM 已冻结的训练数据，而是先从外部知识库（内部文档、网页、客户记录等）检索相关片段，将其作为上下文注入提示词，引导模型给出有据可查的回答。

经典流水线架构分为三步：

**索引阶段：**将文档切分为片段，转换为嵌入向量（Embedding），并存储至向量数据库。
**检索阶段：**对用户问题进行嵌入，数据库返回语义最相似的 top-k 片段。
**生成阶段：**将检索到的片段连同指令「仅根据以下上下文作答」一起注入 LLM 提示词。

RAG 能有效减少幻觉，无需重新训练即可保持内容时效性，并提供用户可核查的来源引用。它是 Perplexity、ChatGPT 浏览模式、企业知识助手以及大多数生产级 LLM 应用的核心引擎。

2025 年涌现出更多变体：混合检索（向量 + 关键词）、重排序器（Cohere、Jina）、用于复杂关系的 GraphRAG（微软），以及由智能体规划多步检索的 Agentic RAG。核心原则始终如一：将正确的上下文传递给模型，有据可查的答案自然随之而来。

来源

另见