🟡 🔧 ハードウェア 2026年5月6日水曜日 · 2 分で読めます ·

AMD: FarSkip-Collective が AMD GPU 上の MoE 推論を 18〜34% 高速化

編集イラスト:アイドルブロックなしでの MoE 推論中に AMD GPU 間を流れる並列データストリーム

AMD ROCm チームが FarSkip-Collective を発表しました。これは Expert Parallelism 通信中の GPU アイドル時間を解消する改良型 MoE アーキテクチャです。結果:Llama-4 Scout の TTFT が 18% 短縮、DeepSeek-V3 で最大 1.34× の高速化、Moonlight の事前学習フェーズが 11% 高速化。

🤖

この記事はAIにより一次情報源から生成されました。

AMD は何を発表しましたか?

AMD ROCm チームは FarSkip-Collective を発表しました。これは Expert Parallelism 通信中の GPU アイドル問題を解消する改良型 MoE(Mixture of Experts)アーキテクチャです。このソリューションは「すでに利用可能な部分的または古い活性化状態」を使用して次のレイヤーを起動し、通信が並列に流れる間、ブロッキング同期バブルを排除します。

MoE と Expert Parallelism とは何ですか?

MoE は、モデル全体ではなく各トークンに対して「エキスパート」(専門化されたサブネットワーク)の一部のみを起動するアーキテクチャです。Expert Parallelism はこれらのエキスパートを複数の GPU に分散させる戦略で、GPU カード間の相互通信が必要です。

TTFT(Time to First Token)はユーザーのクエリから最初の出力トークンまでのレイテンシです——これはインタラクティブな LLM アプリケーションの重要な指標です。

推論はどれくらい速くなりますか?

AMD は ROCm プラットフォームでの具体的な結果を報告しています:

  • Llama-4 Scout の TTFT 18% 短縮
  • DeepSeek-V3(6710 億パラメータ)で最大 1.34× の高速化
  • Moonlight モデルの事前学習フェーズが 11% 高速化
  • Grouped-Query-Attention 技術との組み合わせでさらに 16% の高速化

結果は AMD Instinct GPU で測定されており、このアプローチは MoE の結果を変えません——標準的なベースラインモデルと比較して精度は維持されます。

なぜオーバーラップが重要なのですか?

従来の Expert Parallelism スキームでは、GPU は次のレイヤーを起動する前に前のレイヤーが活性化交換を完了するのを待つ必要があります。これにより「バブル」——計算ユニットがアイドル状態になる時間——が生じます。

FarSkip-Collective はこの通信を次のレイヤーの計算とオーバーラップさせるため、GPU はほとんど待機しません。結果として、新たなコストなしに平均的なハードウェア利用率が向上します。

よくある質問

MoE アーキテクチャとは何ですか?
Mixture of Experts(専門家の混合)はアーキテクチャの一種で、モデル全体ではなく各トークンに対して専門化されたサブネットワーク(エキスパート)のサブセットのみを起動することで、計算コストを削減します。
DeepSeek-V3 ではどれくらい高速化されますか?
6710 億パラメータの DeepSeek-V3 モデルの推論実行で最大 1.34× の高速化が得られます。
モデルの精度は低下しますか?
いいえ。AMD は標準的な MoE ベースラインモデルと比較して精度が維持されていると述べています。