24 AI 今日 AI 新闻，源自一手资料的摘要。

全部 🤖 模型 📦 开源 ⚖️ 监管 🤝 智能体 🔧 硬件 🏥 实践应用 💬 社区 🛡️ 安全 ✨ 趣闻

基础

嵌入向量 (Embedding)

单词、句子、文档或图像在高维空间中的稠密向量表示，语义相近的内容在该空间中彼此靠近；是现代语义搜索、推荐系统和检索增强生成（RAG）不可或缺的核心基础构件。

嵌入向量（embedding） 是一个稠密的浮点数向量（通常为 256 到 4096 维），用于表示单词、句子、段落、图像或任何其他输入的语义。其核心性质是：语义相近的内容在该空间中彼此靠近，而无关内容彼此远离。距离通常通过余弦相似度（cosine similarity）或欧氏距离（Euclidean distance）来度量。

嵌入向量由专门训练的模型生成——例如 OpenAI 的 text-embedding-3-large、Cohere Embed v3，或开源模型如 bge-m3 和 nomic-embed。许多大型语言模型在内部将嵌入用作分词（tokenization）之后的第一层——每个 token 在进入 Transformer 层之前会被映射为其学习到的向量。

主要应用：

语义搜索： 不再要求查找精确词语，系统能够找到语义相似的文档
RAG 系统： 在生成回答之前从向量数据库中检索相关文档
分类与聚类： 在不需要人工标注的情况下对相似内容进行分组
推荐： 「看过 X 的用户可能也想要 Y」

嵌入向量是所有现代语义搜索系统和 RAG 架构的基础——没有它们，AI 助手就无法高效访问自身文档或对话上下文之外的知识。

来源

Google ML — Word embeddings

另见