AMD ROCm: EAGLE3投機的デコードがMI325X上でKimi-K2.5を33%高速化
AMD ROCmチームが8基のInstinct MI325X上でEAGLE3投機的デコードをKimi-K2.5モデルに適用した結果、GSM8Kベンチマークの精度を維持したまま出力スループットが33%向上し、中央値トークン間レイテンシが58%低下しました。
この記事はAIにより一次情報源から生成されました。
EAGLE3がAMDハードウェアにツリーベース投機的デコードをもたらす
AMD ROCmチームは、各256GB HBMメモリ(gfx942アーキテクチャ)を搭載した8基のAMD Instinct MI325X GPUクラスターにEAGLE3アルゴリズムを実装した結果を発表しました。テスト対象モデルは、Moonshot AIが開発したKimi-K2.5——W4A8形式(INT4重み、INT8活性化)に量子化された、パラメータ数497GBの巨大なMixture-of-Expertsモデルです。
投機的デコードは、小型で高速なドラフトモデルが次のトークン候補を複数先行して提案し、大型(メイン)モデルが1回のパスで並列検証する手法です。トークンを1つずつ生成する必要がなくなります。EAGLE3はこのアイデアをツリーベースのアプローチに拡張し、複数の仮説ツリーを同時に提案します。これにより、大型モデルが再計算なしに長いシーケンスを承認する確率が高まります。
測定結果
同時リクエスト数40での測定結果は以下のとおりです。
- 出力スループット: 672 → 895トークン/秒、**+33.1%**の向上
- デコードレイテンシ(TPOT): 42.73 → 27.41ms、**−35.9%**の低下
- 中央値トークン間レイテンシ(ITL): 27.98 → 11.75ms、**−58.0%**の低下
EAGLE3なしでは、各トークンの待ち時間は平均約28msでした。EAGLE3導入後は12ms未満に低下——半分以上の削減です。GSM8K数学ベンチマークの精度は0.93以上を維持しており、精度の劣化は見られません。
AMDエコシステムにとっての意義
この結果は、AMD MI325XがNVIDIA製品の代替として書類上だけでなく、ハードウェアを変えることなくROCmスタックのソフトウェア最適化によって、本番環境のMoEモデルに対して具体的な高速化を実現できることを示しています。
よくある質問
- 投機的デコードとはどのようなもので、なぜテキスト生成を高速化できるのですか?
- 投機的デコードは、小型のドラフトモデルが次のトークンを複数まとめて提案し、大型モデルがそれらを並列で検証する手法です。トークンを1つずつ生成するのではなく並列処理することで、トークン間の待ち時間が大幅に短縮されます。
- EAGLE3による高速化はモデルの精度を犠牲にしていますか?
- いいえ。GSM8Kベンチマークのスコアは0.93を上回っており、Kimi-K2.5はレイテンシを大幅に削減しながらも完全な精度を維持しています。