🤖 24 AI
🟡 🤖 模型 2026年4月23日星期四 · 2 分钟阅读

Google发布gemini-embedding-2正式版:首个支持5种模态统一嵌入空间的多模态嵌入模型

编辑插图:AI模型 — modeli

为什么重要

Google宣布gemini-embedding-2模型正式发布(GA),该模型支持将文本、图像、视频、音频和PDF文件映射到统一的嵌入向量空间。该模型自2026年3月10日起以预览版提供,现已通过Gemini API向所有用户开放。

Google宣布gemini-embedding-2模型正式发布,这是首个将五种模态——文本、图像、视频、音频和PDF文档——映射到统一向量空间的多模态嵌入模型。该模型自2026年3月10日起以预览版提供,现已通过Gemini API向所有用户开放。

此次发布标志着嵌入模型领域的重要里程碑,因为此前的工作主要涵盖文本或文本-图像对。很少有模型能一致地涵盖音频和视频,而将PDF作为一等模态几乎是未知领域。

什么是嵌入,为什么重要?

嵌入是以向量形式对输入进行的数值表示——描述内容含义的一系列数字。嵌入用于语义搜索、RAG(检索增强生成)系统、分类、重复检测和推荐。

核心理念是相似的输入在向量空间中彼此接近。以前这主要是文本对文本或图像对图像。统一空间中的多模态嵌入意味着文本查询”猫在跳跃”可以找到一张猫的照片、一段猫的视频和猫叫声的音频——无需特殊转换。

支持哪些输入类型?

该模型支持五种输入类型:

  • 文本 — 嵌入的经典来源,通常用于搜索和RAG
  • 图像 — 照片、截图、图形
  • 视频 — 短片或较长录像
  • 音频 — 语音、音乐、声音事件
  • PDF — 包含文本、图像和表格混合的完整文档

PDF作为一等模态意味着用户不需要手动从文档中提取文本和图像。模型在内部完成这一操作,并生成描述整个文档的单一向量。

有哪些实际应用?

最明显的应用是对异构内容进行高级语义搜索。拥有文档、图像和会议录音混合的组织可以将所有内容索引到同一个向量索引中,并用任何媒体类型的任何查询进行搜索。

对于构建RAG应用的开发者和企业来说,多模态嵌入简化了架构。不再需要从PDF中提取文本的流水线、将图像通过单独模型处理、再将音频通过第三个模型处理,一切都可以通过单个API调用完成。这降低了复杂性,可能也降低了成本。

值得注意的是,GA发布并不自动意味着该模型适合所有应用——精度取决于具体数据和领域。建议在迁移整个生产流水线之前,先在自己的数据集上测试该模型。

🤖

本文由人工智能基于一手来源生成。