インフラ

投機的デコーディング

小型のドラフトモデルが複数のトークンを一度に提案し、大規模モデルが並列で検証・採択する推論高速化手法。出力は標準デコードと完全に一致する。

投機的デコーディングspeculative decoding)は、小型で高速な「ドラフト」モデルが複数の将来のトークンを一度に提案し、大規模なターゲットモデルがそれらを一度の順伝播でまとめて検証する推論高速化手法です。

大規模言語モデルはトークンを一つずつ生成するため、各ステップでネットワーク全体を通す必要があり遅くなります。投機的デコーディングはこの逐次的なボトルネックを打破します。低コストなドラフトモデル(多くは蒸留版や小型版)が次の3〜8トークンを推測し、ターゲットモデルがそれらの確率を並列に計算します。修正された棄却サンプリングにより、推測したトークンがターゲット分布と一致する限り採択し、最初の不一致を修正します。重要なのは、出力が標準デコードと数学的に同一である点です。

本手法は2022年にGoogle ResearchのLeviathanらが提案し、2024年以降は本番環境のモデル提供における標準技術となり、vLLM、NVIDIA TensorRT-LLM、SGLangなどが対応しています。通常2〜3倍の高速化(MedusaやEAGLEなどの派生手法はさらに高速)を品質を損なわずに実現し、最も重要なレイテンシ最適化の一つとなっています。

出典

関連項目