AMD: FarSkip-Collective が AMD GPU 上の MoE 推論を 18〜34% 高速化
AMD ROCm チームが FarSkip-Collective を発表しました。これは Expert Parallelism 通信中の GPU アイドル時間を解消する改良型 MoE アーキテクチャです。結果:Llama-4 Scout の TTFT が 18% 短縮、DeepSeek-V3 で最大 1.34× の高速化、Moonlight の事前学習フェーズが 11% 高速化。
この記事はAIにより一次情報源から生成されました。
AMD は何を発表しましたか?
AMD ROCm チームは FarSkip-Collective を発表しました。これは Expert Parallelism 通信中の GPU アイドル問題を解消する改良型 MoE(Mixture of Experts)アーキテクチャです。このソリューションは「すでに利用可能な部分的または古い活性化状態」を使用して次のレイヤーを起動し、通信が並列に流れる間、ブロッキング同期バブルを排除します。
MoE と Expert Parallelism とは何ですか?
MoE は、モデル全体ではなく各トークンに対して「エキスパート」(専門化されたサブネットワーク)の一部のみを起動するアーキテクチャです。Expert Parallelism はこれらのエキスパートを複数の GPU に分散させる戦略で、GPU カード間の相互通信が必要です。
TTFT(Time to First Token)はユーザーのクエリから最初の出力トークンまでのレイテンシです——これはインタラクティブな LLM アプリケーションの重要な指標です。
推論はどれくらい速くなりますか?
AMD は ROCm プラットフォームでの具体的な結果を報告しています:
- Llama-4 Scout の TTFT 18% 短縮
- DeepSeek-V3(6710 億パラメータ)で最大 1.34× の高速化
- Moonlight モデルの事前学習フェーズが 11% 高速化
- Grouped-Query-Attention 技術との組み合わせでさらに 16% の高速化
結果は AMD Instinct GPU で測定されており、このアプローチは MoE の結果を変えません——標準的なベースラインモデルと比較して精度は維持されます。
なぜオーバーラップが重要なのですか?
従来の Expert Parallelism スキームでは、GPU は次のレイヤーを起動する前に前のレイヤーが活性化交換を完了するのを待つ必要があります。これにより「バブル」——計算ユニットがアイドル状態になる時間——が生じます。
FarSkip-Collective はこの通信を次のレイヤーの計算とオーバーラップさせるため、GPU はほとんど待機しません。結果として、新たなコストなしに平均的なハードウェア利用率が向上します。
よくある質問
- MoE アーキテクチャとは何ですか?
- Mixture of Experts(専門家の混合)はアーキテクチャの一種で、モデル全体ではなく各トークンに対して専門化されたサブネットワーク(エキスパート)のサブセットのみを起動することで、計算コストを削減します。
- DeepSeek-V3 ではどれくらい高速化されますか?
- 6710 億パラメータの DeepSeek-V3 モデルの推論実行で最大 1.34× の高速化が得られます。
- モデルの精度は低下しますか?
- いいえ。AMD は標準的な MoE ベースラインモデルと比較して精度が維持されていると述べています。