智能体

检索增强生成 (RAG)

将检索系统与语言模型相结合的主流设计模式:在回答之前先从外部知识库(文档、网页、数据库)中检索相关内容并注入提示词,使模型输出建立在真实、可验证的数据基础之上。

**检索增强生成(RAG,Retrieval-Augmented Generation)**是从大型语言模型获取准确、及时答案的主流架构模式。RAG 系统不单纯依赖 LLM 已冻结的训练数据,而是先从外部知识库(内部文档、网页、客户记录等)检索相关片段,将其作为上下文注入提示词,引导模型给出有据可查的回答。

经典流水线架构分为三步:

  1. **索引阶段:**将文档切分为片段,转换为嵌入向量(Embedding),并存储至向量数据库
  2. **检索阶段:**对用户问题进行嵌入,数据库返回语义最相似的 top-k 片段。
  3. **生成阶段:**将检索到的片段连同指令「仅根据以下上下文作答」一起注入 LLM 提示词。

RAG 能有效减少幻觉,无需重新训练即可保持内容时效性,并提供用户可核查的来源引用。它是 Perplexity、ChatGPT 浏览模式、企业知识助手以及大多数生产级 LLM 应用的核心引擎。

2025 年涌现出更多变体:混合检索(向量 + 关键词)、重排序器(Cohere、Jina)、用于复杂关系的 GraphRAG(微软),以及由智能体规划多步检索的 Agentic RAG。核心原则始终如一:将正确的上下文传递给模型,有据可查的答案自然随之而来。

来源

另见