AWS Nova蒸留によるビデオセマンティック検索:コスト95%削減、推論速度2倍
なぜ重要か
AWSはモデル蒸留がどのように大型Nova Premierモデルのインテリジェンスをビデオ検索ルーティング用のより小さなNova Microに転送するかを実証しました。結果は推論コストの95%削減、50%低レイテンシ(1741msに対して833ms)、LLM-as-judge評価で品質を維持(5点中4点)です。トレーニング全体でNova Premierから生成された10,000の合成サンプルを使用しました。
Amazon Web Servicesは2026年4月17日にモデル蒸留技術——大型の「教師」モデルのインテリジェンスをより小さな「生徒」モデルに転送する技術——についての詳細な技術ケーススタディを発表しました。著者のAmit Kalawat、Bimal Gajjar、James Wuは本番タスク(ビデオセマンティック検索)での具体的な数値を示しています。
蒸留の概要
モデル蒸留は、大型で高価かつ遅い「教師」モデルがサンプルを生成し、より小さく安価で速い「生徒」モデルがそこから学ぶ技術です。固定タスク——「すべてを知る」必要はなく「この特定のことを知れば良い」——では、蒸留によって品質をあまり損なわずに劇的なコスト削減が可能です。
AWSの設定
タスクはビデオ検索インテントルーティング——ビデオ検索時に4つのモダリティそれぞれにどれだけの重みを与えるかを決定することです:
- 視覚信号(画像で見えるもの)
- 音声信号(音楽、効果音)
- 文字起こし(話された内容)
- メタデータ(タイトル、説明、タグ)
教師モデル: Amazon Nova Premier——最大のNovaモデル、最有能だが最高コスト 生徒モデル: Amazon Nova Micro——最小のNova、高速・低コストだが標準では複雑な推論に限界
方法論と数値
AWSは以下のパイプラインを使用しました:
- Nova Premierから10,000の合成ラベル付きサンプルを生成
- 4つのシグナル(視覚、音声、文字起こし、メタデータ)にわたる均一な分布
- S3アップロードとBedrock Customizationによる非同期トレーニングジョブ
- 蒸留モデルのオンデマンドデプロイ
- カスタムルーブリックを使用したAmazon Bedrockモデル評価による評価
結果
AWSが発表した数値は印象的です:
- 推論コストの削減:入出力トークンで95%超
- レイテンシ:833ms(1,741msのベースラインに対して50%削減)
- 品質(LLM-as-judge): 蒸留されたNova Microはベースラインのなva Premierと同じ5点中4.0点を達成
これは蒸留がうまく機能する典型的なケースです——生徒が特定の狭いタスクで教師の品質を達成し、大型モデルのコストオーバーヘッドを完全に排除します。
なぜ10,000サンプル?
10,000サンプルというサイズは興味深いバランスです:本番のビデオクエリのバリエーションをカバーするには十分大きく、Bedrock Customizationを通じたトレーニングが低コストで済むには十分小さいです(このような作業で数ドル)。
AWSはこの特定のトレーニングの正確なコストを発表していませんが、以前発表されたNova Micro Text-to-SQLの数値(2,000サンプル、8ドル)に基づくと、このジョブはおそらく一回限りのトレーニングで30〜40ドルです。毎月数千ドルのNova Premier推論コストを支払っていた組織にとって、投資回収はほぼ即座です。
蒸留を使うべき時
このパターンが最も効果的なのは:
- モデルが狭く定義されたタスク(ルーティング、分類、単純推論)を解く時
- 安定した分散型教師(独自モデルを持つ大企業)がある時
- 推論ボリュームが高い——一回限りのトレーニングが数ヶ月の使用を通じて正当化される時
- レイテンシが重要——833msと1,741msの差はインタラクティブアプリケーションと遅いアプリケーションの違い
トレンドの背景
この投稿はAWSのビデオセマンティック検索シリーズの2番目です(前の記事はNova Multimodal Embeddings——姉妹記事参照)。この組み合わせは重要です——Microモデルの蒸留ルーター+マルチモーダル埋め込みが企業シナリオ向けの本番デプロイ可能なパイプラインを提供します:スポーツアーカイブ、スタジオアーカイブ、ニュース映像。
AWSはこうしてモデル蒸留が明確な経済モデルと文書化されたコスト削減を持つ一流のBedrockフィーチャーとして本番環境に準備できていることを示しています。
この記事はAIにより一次情報源から生成されました。