Google: Gemini API File Search 扩展至图像和文本的多模态搜索
Google 将 Gemini API 中的 File Search 扩展至多模态搜索,通过 gemini-embedding-2 模型实现图像和文本文档的原生嵌入和检索。新增两个 grounding 字段及针对 Batch API 的事件驱动 webhook 支持。
本文由人工智能基于一手来源生成。
Google 发布了什么?
Google 将 Gemini API 中的 File Search 功能扩展至多模态搜索。此前仅限于文本,现在使用 gemini-embedding-2 模型支持图像和传统文本文档的原生嵌入和检索。
嵌入是内容的向量表示,使语义比较成为可能;而 grounding 则意味着将答案与具体来源相连接。
新的 grounding 字段带来了什么?
此次更新在 File Search 结果中引入了两个新元数据:
media_id——视觉引用的标识符,使响应中的引用能够与精确的图像相关联。page_numbers——文档的页码,便于在 PDF 或多页文件中追踪来源位置。
对于开发团队来说,这意味着 RAG 应用现在可以像引用文本段落一样自然地引用技术文档中的图像。
webhook 支持带来了什么?
与 File Search 同步,Google 于 5 月 4 日在 Gemini API 中引入了事件驱动 webhook 支持。它取代了 Batch API 操作和其他长时间运行进程的传统轮询工作流。
与其让客户端每隔几秒问一次”完成了吗?“,Gemini 会在状态更改时自动向配置的 URL 发送 HTTP 请求。这减少了客户端的负载和通知延迟。
为什么这很重要?
多模态 File Search 消除了对图像和文本分别建立独立管道的需要——一个向量空间涵盖两者。这对于产品目录搜索、医疗文档或包含图表的技术手册等企业场景非常重要。
另一方面,webhook 支持使批量处理集成更加现代化,并使 Gemini API 与事件驱动架构更兼容。
常见问题
- 哪个模型驱动多模态 File Search?
- gemini-embedding-2 模型,它将图像和文本原生嵌入到共同的向量空间中。
- 新的 grounding 字段有哪些?
- media_id 用于视觉引用,page_numbers 用于追踪文档中的位置。
- webhook 带来了什么?
- 取代 Batch API 和其他长时间运行进程的轮询工作流,减少客户端负载。