文字起こしベースの検索との主な違いは何ですか？

文字起こしは音声以外のすべてを失います——視覚要素、音響効果、音楽は検索から見えなくなります。Nova マルチモーダル埋め込みはテキスト、画像、ビデオ、音声をセマンティックスペースの同等の部分として扱います。

ベースラインと比較したパフォーマンスの向上はどの程度ですか？

Recall@5は51%から90%に跳ね上がり（39pp）、Recall@10は64%から95%、MRRは48%から90%、NDCG@10は54%から88%へ。すべての指標で30〜40パーセントポイントの改善。

インフラのコストはどのくらいですか？

AWSはS3 Vectorsを主要ストレージとして挙げています——専門のベクトルDBより最大90%安い。OpenSearch ServiceがkNN+メタデータをカバーし、Fargateが処理ワークロード、Transcribeが音声、Rekognitionが有名人IDを担当します。

AWS Nova マルチモーダル埋め込みによるビデオ検索：ハイブリッドアプローチでリコール率51%から90%へ

AWSは、Nova蒸留に関する最近の記事とともに、2026年4月17日にビデオ検索ストーリーの2番目の重要な部分を発表しました——Amazon Nova マルチモーダル埋め込み。同じチーム（Amit Kalawat、Bimal Gajjar、James Wu）の著者たちは、AWSがビデオコンテンツへのセマンティック検索にアプローチする方法を根本的に変えるアーキテクチャを詳述しています。

何が違うのか

従来のビデオ検索パイプラインには明確な制限があります：すべてがテキストに変換されます。音声は文字起こしされ、画像は説明され、メタデータは読み込まれます——そしてテキスト埋め込みモデルが検索します。問題は：このプロセスで元のコンテンツの90%が失われることです——音響効果、音楽、視覚的な構成、色、動き。

Nova マルチモーダル埋め込みはこのアプローチを変えます。システムはテキスト、ドキュメント、画像、ビデオ、音声を同時に統一された1024次元ベクトル空間で処理します。事前のテキスト変換はありません——各モダリティがそのセマンティクスを保持します。

2フェーズパイプライン

インジェストフェーズはビデオを構造化シグナルとして扱います：

FFmpegによるシーン検出——ビデオは自然な遷移に分割されます（通常5〜15秒）
3つの並列処理ブランチ：
- 視覚+音声シグナルの1024次元埋め込み
- アライメントされた文章レベル埋め込みを持つ文字起こし
- 追加メタデータのための有名人ID+キャプション生成

検索フェーズはインテント認識ルーティングを使用します：

インテント分析（Claude Haiku）が各モダリティ（視覚、音声、文字起こし、メタデータ）に重みを割り当てます（0.0〜1.0）
3つの特定インデックスを通じてクエリ埋め込みが生成されます
最終スコア = w₁×norm_bm25 + w₂×norm_visual + w₃×norm_audio + w₄×norm_transcription

ハイブリッドアプローチ：セマンティクス+語彙

重要なイノベーションはセマンティックと語彙検索の組み合わせです：

セマンティック検索（埋め込み）——概念的な類似性に優れています（「ドラマチックなシーン」、「ノスタルジックなトーン」）
語彙検索（BM25）——正確なエンティティに優れています（名前、製品コード、場所）

BM25レイヤーなしでは、特定の人物や製品名での検索は信頼できません。埋め込みは抽象化に優れていますが、似ているが異なる名前の区別はできません。

パフォーマンス：大幅な向上

AWSは10本の長尺ビデオと20のクエリでシステムをテストし、ハイブリッドアプローチとベースラインのcombinedモード埋め込みソリューションを比較しました：

指標	ハイブリッドアプローチ	ベースライン
Recall@5	90%	51%
Recall@10	95%	64%
MRR	90%	48%
NDCG@10	88%	54%

すべての指標で30〜40パーセントポイントの改善。 これは段階的な向上ではありません——これはビデオ検索で達成できるものの再定義です。

インフラ面

AWSはエンタープライズスケールで低コストなパイプラインを設計しました：

3つのインデックス空間の主要ストレージとしてのS3 Vectors——専門のベクトルDBより最大90%安い
OpenSearch Service — kNN検索とメタデータインデックス用
AWS Fargate — 処理ワークロード用
Amazon Transcribe — 音声からテキストへ
Amazon Rekognition — 有名人ID
Nova 2 Lite — 説明とジャンルの生成

アーキテクチャは効率的なベクトルストレージと選択的クエリルーティングを通じて大規模なコンテンツライブラリへのスケーリングをサポートします——インテントルーターが音声がクエリに関係ないと評価した場合（重みが0.05未満）、音声インデックスは全く検索されません。

AWSが挙げるユースケース

スポーツプロデューサーがアーカイブのハイライトシーンを検索
映画スタジオが特定の俳優のシーンを検索
ニュース組織が雰囲気、場所、イベントで映像を検索

いずれのケースも、以前の文字起こしアプローチは正しいシーンを見つけるために重要な視覚情報と音声情報を見逃していました。

広範な背景

Nova Model Distillation記事（姉妹記事参照）とともに、AWSは同じ日に完全なビデオ検索パイプラインを発表しました：埋め込みアーキテクチャ+蒸留ルーティング。両方の記事は同じ著者チームからであり、大型ビデオアーカイブを管理する組織のための完全なエンタープライズソリューションを形成しています。

AWSにとってこれは戦略的な動きです——AmazonはGoogleやAzureに対してAIインフラリーダーとしての位置づけに長い間苦労してきました。Novaモデルファミリー+マルチモーダル埋め込み+蒸留+S3 Vectorsが、文書化されたコスト削減を持つ具体的で測定可能なスタックを形成しています。