🟡 🤖 モデル 2026年5月7日木曜日 · 2 分で読めます ·

Google: Gemini APIがマルチモーダルなFile Search画像検索とInteractions APIの破壊的変更を導入

編集イラスト:Gemini APIがマルチモーダルFile SearchとInteractions API破壊的変更を導入

GoogleはGemini File Searchをgemini-embedding-2モデルを使ったマルチモーダル画像検索に拡張し、視覚的な引用のためにグラウンディングメタデータにmedia_idを追加しました。同時に、Interactions APIの破壊的変更を発表しました。outputsがstepsに変わり、新しいデフォルトは2026年5月20日から、旧スキーマの廃止は2026年6月6日となります。

🤖

この記事はAIにより一次情報源から生成されました。

GoogleはGemini APIの変更ログで2つの重要な変更を発表しました。File Searchのマルチモーダル画像検索への拡張(2026年5月6日)と、Interactions APIの破壊的変更(2026年5月7日)です。どちらの変更もGeminiスタック上でアプリケーションを構築する開発者に影響します。

マルチモーダルFile Searchで何が可能になりますか?

File Searchが新しいgemini-embedding-2モデルを使って画像をネイティブに埋め込み・検索できるようになりました。これにより、開発者が視覚コンテンツのエンベディングを別途生成したり、画像をテキスト説明に変換したりする必要がなくなります。

グラウンディングメタデータに2つの新しいフィールドが追加されました。media_idは視覚的な引用(回答に貢献した画像の正確な特定)を可能にし、page_numbersは元の文書内の具体的なページを示します。この組み合わせにより、テキストと画像が混在するPDFやその他の文書上でRAGシステムを構築することが容易になります。

Interactions APIでは何が変わりますか?

これはリクエストとレスポンスのスキーマにおける破壊的変更です。outputsフィールドがstepsに名前変更され、出力フォーマット設定(response_format)も同時に変更されます。Googleは変更ログで「Interactions APIのリクエストとレスポンスのスキーマ(outputssteps)と出力フォーマット設定(response_format)が変更されます」と述べています。

新スキーマは2026年5月20日からデフォルトとなり、クライアントが自動的に切り替わる前に移行をテストするための2週間が与えられます。旧スキーマは2026年6月6日に完全廃止されます。この日付以降、旧クライアントコードは動作しなくなります。

開発者は何をする必要がありますか?

Interactions APIを使用するチームは、レスポンスの解析ロジックを更新し、コード内のoutputsフィールドへの参照を確認する必要があります。Googleは、本番環境での中断を避けるために5月20日までに移行ガイドを参照することを推奨しています。

File Searchユーザーには、画像取得のレビューと、引用UIで新しいmedia_idおよびpage_numbersフィールドが使用されているかの確認が推奨されます。マルチモーダル拡張には後方互換性があり、既存のテキスト検索は変更なしに継続して動作します。

よくある質問

マルチモーダルFile Search拡張は何をもたらしますか?
File Searchがgemini-embedding-2モデルを使って画像をネイティブに埋め込み・検索できるようになりました。グラウンディングメタデータには、視覚的引用のためのmedia_idと、元の文書内の情報位置を示すpage_numbersが追加されました。
Interactions APIはどのように変わりますか?
スキーマが`outputs`を`steps`に変更し、出力フォーマット設定(`response_format`)も変更されます。新スキーマは2026年5月20日からデフォルトとなり、旧スキーマは2026年6月6日に完全廃止されます。
開発者には移行のための時間がどのくらいありますか?
2026年5月20日から新スキーマがデフォルトとなりますが、旧スキーマは2026年6月6日まで動作し続けます。クライアント実装のテストと調整のために約2週間の移行期間が設けられています。