🤖 24 AI
🟡 🤖 モデル 2026年4月18日土曜日 · 4 分で読めます

AWS Nova マルチモーダル埋め込みによるビデオ検索:ハイブリッドアプローチでリコール率51%から90%へ

なぜ重要か

AWS Nova マルチモーダル埋め込みは、テキストに変換せずにビデオの視覚・音声・テキストコンテンツを統一された1024次元ベクトル空間で同時に処理する新しいアーキテクチャです。セマンティック埋め込みとBM25語彙検索の組み合わせによりRecall@5が90%となり、ベースラインのcombinedモード埋め込みの51%と比較して——すべての指標で30〜40ポイント向上しました。

AWSは、Nova蒸留に関する最近の記事とともに、2026年4月17日にビデオ検索ストーリーの2番目の重要な部分を発表しました——Amazon Nova マルチモーダル埋め込み。同じチーム(Amit Kalawat、Bimal Gajjar、James Wu)の著者たちは、AWSがビデオコンテンツへのセマンティック検索にアプローチする方法を根本的に変えるアーキテクチャを詳述しています。

何が違うのか

従来のビデオ検索パイプラインには明確な制限があります:すべてがテキストに変換されます。音声は文字起こしされ、画像は説明され、メタデータは読み込まれます——そしてテキスト埋め込みモデルが検索します。問題は:このプロセスで元のコンテンツの90%が失われることです——音響効果、音楽、視覚的な構成、色、動き。

Nova マルチモーダル埋め込みはこのアプローチを変えます。システムはテキスト、ドキュメント、画像、ビデオ、音声を同時に統一された1024次元ベクトル空間で処理します。事前のテキスト変換はありません——各モダリティがそのセマンティクスを保持します。

2フェーズパイプライン

インジェストフェーズはビデオを構造化シグナルとして扱います:

  1. FFmpegによるシーン検出——ビデオは自然な遷移に分割されます(通常5〜15秒)
  2. 3つの並列処理ブランチ
    • 視覚+音声シグナルの1024次元埋め込み
    • アライメントされた文章レベル埋め込みを持つ文字起こし
    • 追加メタデータのための有名人ID+キャプション生成

検索フェーズインテント認識ルーティングを使用します:

  1. インテント分析(Claude Haiku)が各モダリティ(視覚、音声、文字起こし、メタデータ)に重みを割り当てます(0.0〜1.0)
  2. 3つの特定インデックスを通じてクエリ埋め込みが生成されます
  3. 最終スコア = w₁×norm_bm25 + w₂×norm_visual + w₃×norm_audio + w₄×norm_transcription

ハイブリッドアプローチ:セマンティクス+語彙

重要なイノベーションはセマンティックと語彙検索の組み合わせです:

  • セマンティック検索(埋め込み)——概念的な類似性に優れています(「ドラマチックなシーン」、「ノスタルジックなトーン」)
  • 語彙検索(BM25)——正確なエンティティに優れています(名前、製品コード、場所)

BM25レイヤーなしでは、特定の人物や製品名での検索は信頼できません。埋め込みは抽象化に優れていますが、似ているが異なる名前の区別はできません。

パフォーマンス:大幅な向上

AWSは10本の長尺ビデオと20のクエリでシステムをテストし、ハイブリッドアプローチとベースラインのcombinedモード埋め込みソリューションを比較しました:

指標ハイブリッドアプローチベースライン
Recall@590%51%
Recall@1095%64%
MRR90%48%
NDCG@1088%54%

すべての指標で30〜40パーセントポイントの改善。 これは段階的な向上ではありません——これはビデオ検索で達成できるものの再定義です。

インフラ面

AWSはエンタープライズスケールで低コストなパイプラインを設計しました:

  • 3つのインデックス空間の主要ストレージとしてのS3 Vectors——専門のベクトルDBより最大90%安い
  • OpenSearch Service — kNN検索とメタデータインデックス用
  • AWS Fargate — 処理ワークロード用
  • Amazon Transcribe — 音声からテキストへ
  • Amazon Rekognition — 有名人ID
  • Nova 2 Lite — 説明とジャンルの生成

アーキテクチャは効率的なベクトルストレージと選択的クエリルーティングを通じて大規模なコンテンツライブラリへのスケーリングをサポートします——インテントルーターが音声がクエリに関係ないと評価した場合(重みが0.05未満)、音声インデックスは全く検索されません。

AWSが挙げるユースケース

  • スポーツプロデューサーがアーカイブのハイライトシーンを検索
  • 映画スタジオが特定の俳優のシーンを検索
  • ニュース組織が雰囲気、場所、イベントで映像を検索

いずれのケースも、以前の文字起こしアプローチは正しいシーンを見つけるために重要な視覚情報と音声情報を見逃していました。

広範な背景

Nova Model Distillation記事(姉妹記事参照)とともに、AWSは同じ日に完全なビデオ検索パイプラインを発表しました:埋め込みアーキテクチャ+蒸留ルーティング。両方の記事は同じ著者チームからであり、大型ビデオアーカイブを管理する組織のための完全なエンタープライズソリューションを形成しています。

AWSにとってこれは戦略的な動きです——AmazonはGoogleやAzureに対してAIインフラリーダーとしての位置づけに長い間苦労してきました。Novaモデルファミリー+マルチモーダル埋め込み+蒸留+S3 Vectorsが、文書化されたコスト削減を持つ具体的で測定可能なスタックを形成しています。

🤖

この記事はAIにより一次情報源から生成されました。