🟡 🤖 模型 2026年5月7日星期四 · 2 分钟阅读 ·

Google: Gemini API获得多模态文件搜索图像检索能力及Interactions API重大变更

编辑插图:Gemini API获得多模态文件搜索及Interactions API重大变更

Google将Gemini文件搜索扩展至多模态图像检索,使用gemini-embedding-2模型,并在基础元数据中加入media_id以支持视觉引用。同时宣布Interactions API重大变更:outputs字段将改为steps,新默认值自2026年5月20日起生效,旧版方案将于2026年6月6日完全移除。

🤖

本文由人工智能基于一手来源生成。

Google在Gemini API变更日志中公布了两项重要变化:文件搜索扩展至多模态图像检索(2026年5月6日)以及Interactions API的重大变更(2026年5月7日)。两项变化均影响基于Gemini技术栈构建应用程序的开发者。

多模态文件搜索实现了哪些功能?

文件搜索现在可使用全新的gemini-embedding-2模型对图像进行原生嵌入和检索。这一更新消除了以往开发者需要单独为视觉内容生成嵌入或将图像转换为文本描述的繁琐流程。

基础元数据新增了两个字段:media_id用于实现视觉引用(精确标记为答案作出贡献的图像),page_numbers则指示信息在原始文档中的具体页面位置。两者结合简化了在混合文本和图像的PDF及其他文档上构建RAG系统的工作。

Interactions API将发生哪些变化?

这是一项涉及请求和响应方案的重大变更。outputs字段将重命名为steps,同时输出格式配置(response_format)也将随之更改。Google在变更日志中指出:「Interactions API的请求和响应方案(outputs→steps)以及输出格式配置(response_format)正在发生变化。」

新方案将于2026年5月20日成为默认值,为开发者提供两周时间在客户端自动切换前测试迁移效果。旧版方案将于2026年6月6日完全停用——此日期之后,旧版客户端代码将无法正常运行。

开发者需要做什么?

使用Interactions API的团队必须更新响应的解析逻辑,并检查代码中对outputs字段的所有引用。Google建议在5月20日之前查阅迁移指南,以避免生产环境中断。

对于文件搜索用户,建议审查图像获取逻辑,并确认引用界面中是否已使用新的media_idpage_numbers字段。多模态扩展具有向后兼容性——现有的文本搜索无需任何修改即可继续运行。

常见问题

多模态文件搜索扩展带来哪些功能?
文件搜索现在可使用gemini-embedding-2模型对图像进行原生嵌入和检索。基础元数据新增了media_id字段(用于视觉引用)和page_numbers字段(标记信息在原始文档中的位置)。
Interactions API将如何变化?
方案将outputs字段重命名为steps,同时更改输出格式配置(response_format)。新方案自2026年5月20日起成为默认值,旧版方案将于2026年6月6日完全停用。
开发者有多少时间进行迁移?
从2026年5月20日起,新方案成为默认值,但旧版将继续运行至2026年6月6日——为测试和调整客户端实现提供约两周的过渡期。