RACER:検索とlogitsドラフト戦略を組み合わせてLLM推論速度を2倍にする訓練不要手法
なぜ重要か
RACERは大規模言語モデルを高速化する訓練不要の手法で、投機的デコーディングのための検索ベースとlogitsベースのドラフト戦略を組み合わせます。自己回帰的デコーディングに対して2倍以上の高速化を達成し、以前のすべての訓練不要手法を上回り、ACL 2026 Findingsに採択されました。Spec-Bench、HumanEval、MGSM-ZHベンチマークでテストされています。
投機的デコーディングとは何ですか、なぜ重要なのですか?
投機的デコーディングは大規模言語モデルを高速化する技術で、小さく高速な「ドラフト」モデルが複数の将来のトークンを一度に提案し、大きなメインモデルが1回のフォワードパスでそれらを検証します。提案が正しければ、メインモデルは自己回帰生成のほとんどのステップをスキップします——品質を損なわずに高速化が得られます。
問題はドラフトモデルの品質が高速化を制限することです:ドラフトが頻繁に間違えると、検証が拒否して利益が失われます。従来のアプローチは追加のドラフトモデルの訓練か、複雑なヒューリスティクスを必要とします。
RACERはどのように機能しますか?
RACER(検索拡張コンテキスト高速投機的デコーディング)は互いに補完する2つのドラフト戦略を組み合わせます:
-
検索ベースのドラフト — 定型的な回答部分や訓練データに現れる部分に対して、RACERはコーパスから類似シーケンスを検索してドラフトとして使用します。著者はこれを「信頼できるアンカー」と呼んでいます——予測可能なセグメントに対して、検索が正確な提案を提供します。
-
logitsベースのドラフト — より創造的または予測しにくい部分に対して、RACERはモデル自身のlogit確率を使用してドラフトを生成します。著者はこれを「柔軟な外挿」と呼んでいます——検索が信頼できない状況向けです。
重要なのは、手法全体が追加の訓練なしに機能することです——既存のモデルに適用するだけで即座に高速化が得られます。
実際にどれほど速くなりますか?
3つのベンチマークで結果は一貫しています:
- Spec-Bench: 自己回帰ベースラインに対して2倍以上の高速化
- HumanEval(コード生成):2倍以上の高速化
- MGSM-ZH(中国語数学):2倍以上の高速化
RACERは以前のすべての訓練不要の投機的デコーディング手法を上回ります。検索ベースとlogitsベースのアプローチを単独で使用した場合も含めて。組み合わせることで、異なる生成モードをカバーするためより大きなブーストが得られます。
開発者が今すぐ活用できることは何ですか?
RACERはACL 2026 Findingsに採択されており、コードが公式リポジトリで利用可能になる可能性が高いです。独自のLLM推論サーバー(vLLM、llama.cpp、TensorRT-LLM)を運用するエンジニアにとって、この手法は以下を意味します:
- モデルの再設定なしで2倍高速な生成
- 訓練コストなし — LoRA、RLHF、追加ドラフトモデル不要
- 既存の量子化と最適化との互換性
本番LLMワークロード(カスタマーサポート、コードアシスタント、バッチ推論)では、2倍の高速化は同じスループットで半分のGPUコストに直結します。
この記事はAIにより一次情報源から生成されました。