コストと速度への具体的な影響は何ですか？

推論コスト（入力・出力トークン）が95%削減され、レイテンシが50%低下——1741msに対して833msです。品質は保たれています（LLM-as-judge評価で5点中4点）。

AWSはどのモデルを教師と生徒として使用していますか？

教師はAmazon Nova Premier（最大・最有能なモデル）。生徒はAmazon Nova Micro（高速・低コスト）。Premierが10,000の合成ラベル付きサンプルを生成し、ビデオ検索ルーティングの特定タスクのためにMicroをトレーニングします。

蒸留されたモデルはどのような具体的なタスクを実行しますか？

ビデオ検索時の4つのモダリティ（視覚、音声、文字起こし、メタデータ）間の重みの割り当てです。蒸留前はこのルーティングが大型Premierモデルで行われていましたが、今はMicroが同等の品質で実行します。

AWS Nova蒸留によるビデオセマンティック検索：コスト95%削減、推論速度2倍

Amazon Web Servicesは2026年4月17日にモデル蒸留技術——大型の「教師」モデルのインテリジェンスをより小さな「生徒」モデルに転送する技術——についての詳細な技術ケーススタディを発表しました。著者のAmit Kalawat、Bimal Gajjar、James Wuは本番タスク（ビデオセマンティック検索）での具体的な数値を示しています。

蒸留の概要

モデル蒸留は、大型で高価かつ遅い「教師」モデルがサンプルを生成し、より小さく安価で速い「生徒」モデルがそこから学ぶ技術です。固定タスク——「すべてを知る」必要はなく「この特定のことを知れば良い」——では、蒸留によって品質をあまり損なわずに劇的なコスト削減が可能です。

AWSの設定

タスクはビデオ検索インテントルーティング——ビデオ検索時に4つのモダリティそれぞれにどれだけの重みを与えるかを決定することです：

視覚信号（画像で見えるもの）
音声信号（音楽、効果音）
文字起こし（話された内容）
メタデータ（タイトル、説明、タグ）

教師モデル： Amazon Nova Premier——最大のNovaモデル、最有能だが最高コスト 生徒モデル： Amazon Nova Micro——最小のNova、高速・低コストだが標準では複雑な推論に限界

方法論と数値

AWSは以下のパイプラインを使用しました：

Nova Premierから10,000の合成ラベル付きサンプルを生成
4つのシグナル（視覚、音声、文字起こし、メタデータ）にわたる均一な分布
S3アップロードとBedrock Customizationによる非同期トレーニングジョブ
蒸留モデルのオンデマンドデプロイ
カスタムルーブリックを使用したAmazon Bedrockモデル評価による評価

結果

AWSが発表した数値は印象的です：

推論コストの削減：入出力トークンで95%超
レイテンシ：833ms（1,741msのベースラインに対して50%削減）
品質（LLM-as-judge）： 蒸留されたNova Microはベースラインのなva Premierと同じ5点中4.0点を達成

これは蒸留がうまく機能する典型的なケースです——生徒が特定の狭いタスクで教師の品質を達成し、大型モデルのコストオーバーヘッドを完全に排除します。

なぜ10,000サンプル？

10,000サンプルというサイズは興味深いバランスです：本番のビデオクエリのバリエーションをカバーするには十分大きく、Bedrock Customizationを通じたトレーニングが低コストで済むには十分小さいです（このような作業で数ドル）。

AWSはこの特定のトレーニングの正確なコストを発表していませんが、以前発表されたNova Micro Text-to-SQLの数値（2,000サンプル、8ドル）に基づくと、このジョブはおそらく一回限りのトレーニングで30〜40ドルです。毎月数千ドルのNova Premier推論コストを支払っていた組織にとって、投資回収はほぼ即座です。

蒸留を使うべき時

このパターンが最も効果的なのは：

モデルが狭く定義されたタスク（ルーティング、分類、単純推論）を解く時
安定した分散型教師（独自モデルを持つ大企業）がある時
推論ボリュームが高い——一回限りのトレーニングが数ヶ月の使用を通じて正当化される時
レイテンシが重要——833msと1,741msの差はインタラクティブアプリケーションと遅いアプリケーションの違い

トレンドの背景

この投稿はAWSのビデオセマンティック検索シリーズの2番目です（前の記事はNova Multimodal Embeddings——姉妹記事参照）。この組み合わせは重要です——Microモデルの蒸留ルーター+マルチモーダル埋め込みが企業シナリオ向けの本番デプロイ可能なパイプラインを提供します：スポーツアーカイブ、スタジオアーカイブ、ニュース映像。

AWSはこうしてモデル蒸留が明確な経済モデルと文書化されたコスト削減を持つ一流のBedrockフィーチャーとして本番環境に準備できていることを示しています。