AMD FarSkip-Collective：MoE 推論を 1.34× 高速化（2026年5月）

AMD ROCm チームが FarSkip-Collective を発表しました。これは Expert Parallelism 通信中の GPU アイドル時間を解消する改良型 MoE アーキテクチャです。結果：Llama-4 Scout の TTFT が 18% 短縮、DeepSeek-V3 で最大 1.34× の高速化、Moonlight の事前学習フェーズが 11% 高速化。

AMD は何を発表しましたか？

AMD ROCm チームは FarSkip-Collective を発表しました。これは Expert Parallelism 通信中の GPU アイドル問題を解消する改良型 MoE（Mixture of Experts）アーキテクチャです。このソリューションは「すでに利用可能な部分的または古い活性化状態」を使用して次のレイヤーを起動し、通信が並列に流れる間、ブロッキング同期バブルを排除します。

MoE と Expert Parallelism とは何ですか？

MoE は、モデル全体ではなく各トークンに対して「エキスパート」（専門化されたサブネットワーク）の一部のみを起動するアーキテクチャです。Expert Parallelism はこれらのエキスパートを複数の GPU に分散させる戦略で、GPU カード間の相互通信が必要です。

TTFT（Time to First Token）はユーザーのクエリから最初の出力トークンまでのレイテンシです——これはインタラクティブな LLM アプリケーションの重要な指標です。

推論はどれくらい速くなりますか？

AMD は ROCm プラットフォームでの具体的な結果を報告しています：

Llama-4 Scout の TTFT 18% 短縮
DeepSeek-V3（6710 億パラメータ）で最大 1.34× の高速化
Moonlight モデルの事前学習フェーズが 11% 高速化
Grouped-Query-Attention 技術との組み合わせでさらに 16% の高速化

結果は AMD Instinct GPU で測定されており、このアプローチは MoE の結果を変えません——標準的なベースラインモデルと比較して精度は維持されます。

なぜオーバーラップが重要なのですか？

従来の Expert Parallelism スキームでは、GPU は次のレイヤーを起動する前に前のレイヤーが活性化交換を完了するのを待つ必要があります。これにより「バブル」——計算ユニットがアイドル状態になる時間——が生じます。

FarSkip-Collective はこの通信を次のレイヤーの計算とオーバーラップさせるため、GPU はほとんど待機しません。結果として、新たなコストなしに平均的なハードウェア利用率が向上します。

よくある質問

MoE アーキテクチャとは何ですか？

Mixture of Experts（専門家の混合）はアーキテクチャの一種で、モデル全体ではなく各トークンに対して専門化されたサブネットワーク（エキスパート）のサブセットのみを起動することで、計算コストを削減します。

DeepSeek-V3 ではどれくらい高速化されますか？

6710 億パラメータの DeepSeek-V3 モデルの推論実行で最大 1.34× の高速化が得られます。

モデルの精度は低下しますか？

いいえ。AMD は標準的な MoE ベースラインモデルと比較して精度が維持されていると述べています。

AMD: FarSkip-Collective が AMD GPU 上の MoE 推論を 18〜34% 高速化

AMD は何を発表しましたか？

MoE と Expert Parallelism とは何ですか？

推論はどれくらい速くなりますか？

なぜオーバーラップが重要なのですか？

よくある質問

出典

関連ニュース