Google: Gemini API File Search が画像とテキストのマルチモーダル検索に対応
Google が Gemini API の File Search をマルチモーダル検索に拡張し、gemini-embedding-2 モデルを通じて画像とテキスト文書のネイティブな埋め込みと検索を可能にしました。2 つの新しい grounding フィールドと Batch API 向けのイベント駆動型 webhook サポートが追加されました。
この記事はAIにより一次情報源から生成されました。
Google は何を発表しましたか?
Google は Gemini API の File Search 機能をマルチモーダル検索に拡張しました。これまでテキストに限定されていましたが、gemini-embedding-2 モデルを使用して画像と従来のテキスト文書のネイティブな埋め込みと検索が可能になりました。
埋め込みはコンテンツのベクトル表現であり、意味的な比較を可能にします。一方 grounding は、回答を具体的なソースに結び付けることを意味します。
新しい grounding フィールドは何をもたらしますか?
このアップデートは File Search の結果に 2 つの新しいメタデータを導入します:
media_id——視覚的な引用の識別子で、回答内の参照を正確な画像に結び付けることができます。page_numbers——文書のページ番号で、PDF や複数ページのファイル内でのソース位置の追跡を容易にします。
開発チームにとって、これは RAG アプリケーションが技術文書の画像をテキストの段落と同じように自然に引用できることを意味します。
webhook サポートは何をもたらしますか?
File Search と並行して、Google は 5 月 4 日に Gemini API にイベント駆動型 webhook サポートを導入しました。Batch API 操作やその他の長時間実行プロセスの従来のポーリングワークフローを置き換えます。
クライアントが数秒ごとに「完了しましたか?」と尋ねる代わりに、Gemini はステータスが変更されたときに設定された URL への HTTP リクエストを自動的に送信します。これにより、クライアント側の負荷と通知の遅延が削減されます。
なぜこれが重要なのですか?
マルチモーダル File Search は、画像とテキストのための別々のパイプラインの必要性を排除します——1 つのベクトル空間で両方をカバーします。これは、製品カタログの検索、医療文書、または図表付きの技術マニュアルなど、エンタープライズシナリオで重要です。
一方、webhook サポートはバッチ処理の統合を近代化し、Gemini API をイベント駆動型アーキテクチャとより互換性のあるものにします。
よくある質問
- マルチモーダル File Search を動かすモデルは何ですか?
- gemini-embedding-2 モデルで、画像とテキストを共通のベクトル空間にネイティブに埋め込みます。
- 新しい grounding フィールドは何ですか?
- media_id は視覚的な引用に使用され、page_numbers は文書内の位置追跡に使用されます。
- webhook は何をもたらしますか?
- Batch API やその他の長時間実行プロセスのポーリングワークフローを置き換え、クライアントの負荷を削減します。