AWS: Amazon Nova Multimodal Embeddingsによる航空写真のセマンティック検索(Vexcel)
VexcelとAWSはAmazon Nova Multimodal Embeddingsを用いた航空写真のセマンティック検索を実証しました。約100種類の設定をテストした後、LLM生成キャプションがプールの検出でF1スコアを11%、道路で13%向上させ、45カ国以上で提供される商用製品Vexcel Intelligenceに発展しました。
この記事はAIにより一次情報源から生成されました。
Amazon Novaはどのように航空写真でプールを見つけるか
Amazon Nova Multimodal Embeddings — テキストと画像を共通のベクトル空間に変換するモデル — は、航空写真のプール検出でF1=0.621、道路でF1=0.555を達成しました。航空測地データの主要プロバイダーであるVexcelは、Amazon Novaをシステムの基盤として選択する前に、約100種類のモデル設定とパラメータをテストしました。
マルチモーダル埋め込みは視覚とテキストコンテンツを同時に共通空間にエンコードする数値ベクトルです。ユーザーは各画像に手動でタグ付けすることなく、シンプルなテキストクエリで数百万の航空写真を検索できます。
LLMキャプションが最重要因子
プロジェクト全体で最大の単一改善をもたらしたのは、大規模言語モデルで自動生成されたキャプション(LLMキャプション)でした。テキストキャプションなしと比べて、プールで+11%、道路で+13%のF1向上が得られました。この結果は、テキストと視覚コンテンツの組み合わせが衛星・航空写真の純粋な視覚的アプローチを上回ることを確認しています。
Vexcelのデータベース内の各ロケーションは7つの視点でカバーされています。真上からの正射投影、異なる角度からの4つの斜め撮影、デジタル表面モデル(DSM)、デジタル地形モデル(DTM)です。
商用結果と技術スタック
この研究は商用製品Vexcel Intelligenceに直接発展し、45カ国以上でプレビュー提供されています。バックエンドインフラはモデルにAmazon Bedrock、ベクトル検索にOpenSearch Serverless、画像データのストレージにAmazon S3を使用しています。
各オブジェクトカテゴリに手動ラベル付きデータセットを必要とする従来のアプローチとは異なり、マルチモーダル埋め込みに基づくセマンティック検索は「川沿いの工業地帯」のようなクエリを事前アノテーションなしで実行できます。
よくある質問
- マルチモーダル埋め込みとは何ですか?なぜ画像検索に役立ちますか?
- マルチモーダル埋め込みは、テキストと視覚コンテンツを共通の空間にエンコードする数値ベクトルで、各写真に手動タグ付けすることなくテキストクエリで画像を検索できます。
- 航空写真にLLM生成キャプションを追加することで改善はどの程度でしたか?
- LLM生成キャプションにより、プール検出でF1が+11%、道路で+13%向上しました。これは約100種類の設定のテスト全体での最大の単一改善でした。