Gemini File Search：多模态搜索 + Webhook 支持（2026年5月）

Google 将 Gemini API 中的 File Search 扩展至多模态搜索，通过 gemini-embedding-2 模型实现图像和文本文档的原生嵌入和检索。新增两个 grounding 字段及针对 Batch API 的事件驱动 webhook 支持。

Google 发布了什么？

Google 将 Gemini API 中的 File Search 功能扩展至多模态搜索。此前仅限于文本，现在使用 gemini-embedding-2 模型支持图像和传统文本文档的原生嵌入和检索。

嵌入是内容的向量表示，使语义比较成为可能；而 grounding 则意味着将答案与具体来源相连接。

此次更新在 File Search 结果中引入了两个新元数据：

对于开发团队来说，这意味着 RAG 应用现在可以像引用文本段落一样自然地引用技术文档中的图像。

与 File Search 同步，Google 于 5 月 4 日在 Gemini API 中引入了事件驱动 webhook 支持。它取代了 Batch API 操作和其他长时间运行进程的传统轮询工作流。

与其让客户端每隔几秒问一次”完成了吗？“，Gemini 会在状态更改时自动向配置的 URL 发送 HTTP 请求。这减少了客户端的负载和通知延迟。

多模态 File Search 消除了对图像和文本分别建立独立管道的需要——一个向量空间涵盖两者。这对于产品目录搜索、医疗文档或包含图表的技术手册等企业场景非常重要。

另一方面，webhook 支持使批量处理集成更加现代化，并使 Gemini API 与事件驱动架构更兼容。

常见问题

哪个模型驱动多模态 File Search？

gemini-embedding-2 模型，它将图像和文本原生嵌入到共同的向量空间中。

新的 grounding 字段有哪些？

media_id 用于视觉引用，page_numbers 用于追踪文档中的位置。

webhook 带来了什么？

取代 Batch API 和其他长时间运行进程的轮询工作流，减少客户端负载。