基础
嵌入向量 (Embedding)
单词、句子、文档或图像在高维空间中的稠密向量表示,语义相近的内容在该空间中彼此靠近;是现代语义搜索、推荐系统和检索增强生成(RAG)不可或缺的核心基础构件。
嵌入向量(embedding) 是一个稠密的浮点数向量(通常为 256 到 4096 维),用于表示单词、句子、段落、图像或任何其他输入的语义。其核心性质是:语义相近的内容在该空间中彼此靠近,而无关内容彼此远离。距离通常通过余弦相似度(cosine similarity)或欧氏距离(Euclidean distance)来度量。
嵌入向量由专门训练的模型生成——例如 OpenAI 的 text-embedding-3-large、Cohere Embed v3,或开源模型如 bge-m3 和 nomic-embed。许多大型语言模型在内部将嵌入用作分词(tokenization)之后的第一层——每个 token 在进入 Transformer 层之前会被映射为其学习到的向量。
主要应用:
- 语义搜索: 不再要求查找精确词语,系统能够找到语义相似的文档
- RAG 系统: 在生成回答之前从向量数据库中检索相关文档
- 分类与聚类: 在不需要人工标注的情况下对相似内容进行分组
- 推荐: 「看过 X 的用户可能也想要 Y」
嵌入向量是所有现代语义搜索系统和 RAG 架构的基础——没有它们,AI 助手就无法高效访问自身文档或对话上下文之外的知识。