🟡 🔧 ハードウェア 公開日: · 4 分で読めます ·

AMD Eagle3とQuark FP8:投機的デコーディングがMI355Xで最大2.00倍のスループットを実現

エディトリアルイラスト:高速推論のためのAMD Instinct GPU上のAMD Eagle3投機的デコーディング

AMD ROCmチームは2026年7月3日、AMD GPU向けEagle3投機的デコーディングの本番適用に関する詳細を公開した。Eagle3マルチレイヤーアプローチ、vLLMバックエンド、AMD Quark FP8量子化の組み合わせにより、AMD Instinct MI355X上でKimi-K2.5が1.69〜2.00倍、MiniMax-M2.5が1.38〜1.79倍のスループット向上を達成し、出力品質の損失はない。

🤖

この記事はAIにより一次情報源から生成されました。

AMD ROCmチームは2026年7月3日、AMD GPUアクセラレーター向けEagle3投機的デコーディングの本番適用に関する詳細な解説を公開した。Eagle3アプローチ、vLLM推論フレームワーク、量子化ツールAMD Quarkの組み合わせにより、AMD Instinct MI355X上でKimi-K2.5の最大**2.00×**のスループット向上を実現し、出力トークンの品質は数学的に保証されている。この成果はEagle3とvLLMのAITER MLA注意機構の同時有効化を妨げていた重要な技術的障害の解決も文書化している。

Eagle3は品質を損なわずにどのように推論を高速化しますか?

Eagle3はターゲットモデルの正確な出力分布を保持するロスレス推論高速化技術だ。標準的な自己回帰LLMは各トークンを個別に生成し、並列化できない逐次的なフォワードパスを必要とする。Eagle3はその逐次性を小型のドラフトモデルの導入によって打ち破る:ドラフトモデルが複数の候補トークンを一度に提案し、ターゲットモデルがすべての提案トークンを1回の共有フォワードパスで検証する。ターゲットモデルが受け入れたトークンは出力に含まれ、拒否されたトークンはその位置で通常のデコーディングに戻る。この数学的保証はEagle3が出力分布を決して変更しないことを意味する――高速化はターゲットモデルのフォワードパス数を削減することのみによって達成される。

以前の投機的アプローチと比較したEagle3の主要な革新は、ターゲットモデルのマルチレイヤー特徴でドラフトモデルを訓練することだ。ドラフトモデルが表現の最後の層だけを見るのではなく、Eagle3はターゲットモデルの低・中・高レベルの意味的特徴を統合する。高レベルは抽象的な意味論を、中レベルは構文的構造を、低レベルは語彙パターンを担う。3つのレベルすべてを組み合わせることで、ドラフトモデルはより単純なアプローチよりも提案トークンの高い受け入れ率を達成する。受け入れ率の向上は直接より大きな高速化に変換される。

AMD Instinct MI355X上でのKimi-K2.5とMiniMax-M2.5

本番での高速化は、InferenceXベンチマークパッケージとROCmソフトウェアスタックを使用してAMD Instinct MI355X GPU上の2つのフロンティアモデルで測定された。

MXFP4精度のターゲットモデルを持つKimi-K2.5は2種類のEagle3ドラフトモデルでテストされた。BF16 Eagle3ドラフトは、1K/1Kワークロード(1024入力トークン、1024出力トークン)で同時実行数4〜64の範囲にわたり**1.69×〜1.90×のスループット係数を達成した。AMD QuarkによってFP8精度に量子化されたFP8 Eagle3ドラフトはBF16版をわずかに上回り:同時実行数4での最大2.00×を含む1.76×〜2.00×**を達成した。

BF16 Eagle3ドラフトモデルを使用したMiniMax-M2.5は、同じMI355Xハードウェア上で同じ同時実行数レベルを通じて**1.38×〜1.79×**のスループット係数を達成した。高速化は低い同時実行数レベルで増加する傾向があり、これは投機的デコーディングの理論的動作と一致している。

AMD QuarkとKVキャッシュ非互換性の解決

この研究の中心的な貢献はAMDハードウェアへのEagle3の適用だけではない――根本的な技術的障害の解決でもある。vLLM AITER MLAバックエンドとEagle3投機的デコーディングはKVキャッシュのblock-sizeパラメーターの非互換性を抱えており、パフォーマンスを低下させることなく両者を同時に有効化することができなかった。AITER MLAは長いコンテキストでの注意機構の効率をもたらし、Eagle3は逐次トークン生成を高速化する――組み合わせは理論的には理想的だが、技術的にはブロックされていた。

AMDのエンジニアがこの非互換性を解決し、設定上の妥協なしに両方の最適化が連携して動作できるようにした。本番構成はROCmスタック、AITER MLAバックエンドを備えたvLLM、特別な回避策なしのEagle3ドラフトモデルを使用している。

量子化ツールAMD Quarkにより、Kimi-K2.5 Eagle3のドラフトモデルはFP8精度に量子化され、安定性のためにLMヘッド層は高精度で維持された。FP8ドラフトモデルはGPUメモリ使用量が少ないだけでなく、測定ではBF16版をわずかに上回った。この結果は、FP8ドラフトモデルの量子化ノイズがこの文脈でトークン受け入れ率を低下させないか、あるいは統計的に中立であることを示唆している。すべての本番構成のターゲットハードウェアはAMD Instinct MI350XおよびMI355Xアクセラレーターだ。この研究はEagle3とFP8量子化の組み合わせが速度と品質のトレードオフではなく、両面での同時改善であることを示している:ドラフトモデルのメモリフットプリントが小さいほどターゲットモデルにより多くのHBM容量を残せ、投機的デコーディングが生成トークンあたりの高コストなフォワードパスの総数を削減する。

よくある質問

Eagle3は品質を低下させずにどのように推論を高速化しますか?
Eagle3は小型のドラフトモデルを使用して複数の候補トークンを一度に提案し、ターゲットモデルが1回のフォワードパスですべての提案トークンを検証します。拒否されたトークンは通常のデコーディングに戻るため、出力分布は数学的に元のものと同一に保たれ、品質の損失はありません。
AMD QuarkはEagle3に何をもたらしますか?
AMD QuarkはKimi-K2.5のドラフトモデルをFP8精度に量子化し、LMヘッドは高精度のまま維持しました。FP8ドラフトモデルはGPUメモリ使用量が少なく、測定ではBF16版をわずかに上回り、MI355Xで最大2.00倍のスループットを達成しました。
どのモデルとハードウェアで速度向上が実証されましたか?
Kimi-K2.5(MXFP4ターゲット)が1.69〜2.00倍のスループット、MiniMax-M2.5(BF16)が1.38〜1.79倍を達成。すべてAMD Instinct MI355X上でROCmスタックとvLLMバックエンド、AITER MLA注意機構を使用した測定結果です。