AMD ATOMオプティマイザー: MI355XでDeepSeek-V4を高速化

ATOMはAMDのオープンソース推論エンジンで、MI355X GPU上でDeepSeek-V4に2つの最適化をもたらします。PrefillDelayerはランク間の調整ロスを排除し、Two-Batch Overlapはネットワーク操作のオーバーラップによりトークンのバランシングを高速化します。

ATOMとは何か、なぜAMDは独自の推論エンジンを開発するのか？

ATOMはAMDのオープンソース推論エンジンで、MI355X GPUが大規模言語モデルを実行する方法を最適化するソフトウェアドライバーです。専用のall2allネットワークハードウェアを必要とするアプローチとは異なり、ATOMは標準的な集合プリミティブを標準的なインターコネクト上で使用することで、同等の性能を達成できることを示しています。

DeepSeek-V4向けの2つの主要な最適化

PrefillDelayerは、Data Parallelランクのprefillフェーズへの参入を調整します。これにより、ランクが有用な作業なしに互いを待機することで生じるいわゆるdummy-prefillロスが排除されます。2番目の最適化であるTwo-Batch Overlapは、個々のトークンレベルでのトークンバランシングを導入し、AllGatherとReduceScatterネットワーク操作（AG/RSオーバーラップ）を重複させることで、ネットワーク転送の総待機時間を削減します。

SemiAnalysis InferenceXベンチマークの結果

測定は、入力8Kトークン・出力1Kトークンというワークロードで、SemiAnalysis InferenceXベンチマークを使用して実施されました。AMDは、ATOMがMI355X上で、通常は高価なカスタムインターコネクトハードウェアを必要とする専用all2allアプローチに匹敵することを強調しています。これは標準インフラにとって重要な成果です。コードはオープンソースとして公開されており、AMDハードウェア上でDeepSeek-V4を試みるすべての人が利用できます。

よくある質問

ATOM推論エンジンとは何ですか？標準的なソリューションとの違いは？

ATOMはAMDのオープンソース推論エンジンで、GPUがAIモデルを実行する方法を管理するソフトウェア層です。高価なカスタムインターコネクトを必要とするall2allアプローチではなく、標準的なネットワークプリミティブを使用して高性能を実現する点が特徴です。

ATOMはどのようなワークロードで評価されましたか？

ベンチマークは、入力8Kトークン・出力1Kトークンというワークロードで、SemiAnalysis InferenceXテストを使用して実施されました。これはDeepSeek-V4のような大規模言語モデルの一般的な本番要件に対応しています。

AMD: ATOMオプティマイザー — MI355X上でDeepSeek-V4向けDP AttentionとTwo-Batch Overlap

ATOMとは何か、なぜAMDは独自の推論エンジンを開発するのか？

DeepSeek-V4向けの2つの主要な最適化

SemiAnalysis InferenceXベンチマークの結果

よくある質問

出典

関連ニュース