什么是gemini-embedding-2？

这是Google的多模态嵌入模型，可以将文本、图像、视频、音频和PDF转换为统一向量空间中的向量。

什么是统一嵌入空间？

这意味着不同类型的输入（文本、图像、音频）可以直接比较，因为它们都被转换为相同类型的向量。

该模型自2026年3月10日起以预览版提供，GA版本于2026年4月22日通过Gemini API发布。

Google宣布gemini-embedding-2模型正式发布，这是首个将五种模态——文本、图像、视频、音频和PDF文档——映射到统一向量空间的多模态嵌入模型。该模型自2026年3月10日起以预览版提供，现已通过Gemini API向所有用户开放。

此次发布标志着嵌入模型领域的重要里程碑，因为此前的工作主要涵盖文本或文本-图像对。很少有模型能一致地涵盖音频和视频，而将PDF作为一等模态几乎是未知领域。

嵌入是以向量形式对输入进行的数值表示——描述内容含义的一系列数字。嵌入用于语义搜索、RAG（检索增强生成）系统、分类、重复检测和推荐。

核心理念是相似的输入在向量空间中彼此接近。以前这主要是文本对文本或图像对图像。统一空间中的多模态嵌入意味着文本查询”猫在跳跃”可以找到一张猫的照片、一段猫的视频和猫叫声的音频——无需特殊转换。

该模型支持五种输入类型：

PDF作为一等模态意味着用户不需要手动从文档中提取文本和图像。模型在内部完成这一操作，并生成描述整个文档的单一向量。

最明显的应用是对异构内容进行高级语义搜索。拥有文档、图像和会议录音混合的组织可以将所有内容索引到同一个向量索引中，并用任何媒体类型的任何查询进行搜索。

对于构建RAG应用的开发者和企业来说，多模态嵌入简化了架构。不再需要从PDF中提取文本的流水线、将图像通过单独模型处理、再将音频通过第三个模型处理，一切都可以通过单个API调用完成。这降低了复杂性，可能也降低了成本。

值得注意的是，GA发布并不自动意味着该模型适合所有应用——精度取决于具体数据和领域。建议在迁移整个生产流水线之前，先在自己的数据集上测试该模型。