AMD: ROCm低レイテンシGEMMカーネルがInstinct MI355XのLLM推論を最大1.79倍高速化
AMDはAITERフレームワーク(AI Tensor Engine for ROCm)内にFlyDSLシステムを発表しました。AMD GPU上のLLMデコードフェーズ向けに特化したGEMMカーネルを自動生成します。結果:M≤8トークンの最も重要なシナリオで平均1.64倍のレイテンシ削減と1.79倍の高速化を達成し、256コンピュートユニットを搭載したInstinct MI355Xでテスト済みです。
この記事はAIにより一次情報源から生成されました。
GEMMとLLMのデコードフェーズとは?
GEMM(General Matrix Multiply、汎用行列乗算)は大規模言語モデルへの各処理を支配する基本的な計算演算です。プリフィルフェーズではモデルが入力プロンプトを並列に処理しますが、デコードフェーズ — 出力トークンを一つずつ生成する段階 — ではバッチサイズ M は一般的に小さくなります:1、2、4、8、または16行です。この非対称性(小さい M に対して数千単位の大きい K と N)がデコードフェーズを重大なボトルネックにします:高スループット向けに最適化された標準的なGEMMルーチンはここで低いレイテンシしか提供できません。
AITERフレームワーク内のFlyDSLの3つの技術
AMDはROCmエコシステムの中でAITER(AI Tensor Engine for ROCm)と、その内部にFlyDSL — 特化したGEMMカーネルを自動合成するジェネレーター — を開発しました。FlyDSLは3つの相補的な技術を組み合わせています:
- Inter-CTA Split-K並列処理 — K次元に沿ってラウンチグリッドを拡張し、複数のブロック(CTA)に処理を分散してGPUリソースの未使用を排除します。
- Intra-CTA Kスライス分割 — 単一のCTA内でK軸を小さなスライスに分割し、追加の同期コストなしに有効な並列性を高めます。
- LDSパイプライン(多段階) — グローバルメモリからローカル共有メモリバッファ(LDS)へのデータ転送をアクティブな計算とオーバーラップさせ、AMD Instinct MI355Xアーキテクチャ(gfx950、256コンピュートユニット)のメモリレイテンシを隠蔽します。
結果とハードウェア:平均1.64倍、最も重要なシナリオで1.79倍
実際のプロダクションモデルであるDeepSeek V3、Llama 70B、Llama 450B、Qwen32Bから32の主要な形状と48の追加バリアントでベンチマークを実施し、FlyDSLカーネルをHipblasLT、AITER Triton、AITER ASMの3つのベースライン実装と比較しました。主要な形状(K=7168)での平均レイテンシ削減は1.64倍で、デコードに重要なM≤8トークンのシナリオでは1.79倍の高速化に達します。特定の形状では最大2.37倍の向上が測定されました。プロダクションモデルからのより広いBF16形状セットでは平均1.49倍です。
AMDはプログラム的アプローチでソフトウェアの遅れを挽回できるか?
FlyDSLとAITERはROCmエコシステムにおけるAMDのソフトウェア不足への体系的な対応を示しています。NVIDIAのcuBLASが数年の優位性を持つ中、AMDは現在プログラム的に高性能カーネルを生成しており、アセンブラコードの手書きなしに新しいGPUアーキテクチャへの最適化を素早く展開できます。AMD Instantインフラへの移行を検討しているオペレーターにとって、デコードレイテンシのこの向上は生成トークンあたりのコストに直接影響します。
よくある質問
- GEMMとは何か、なぜLLM推論において重要なのですか?
- GEMM(General Matrix Multiply、汎用行列乗算)はLLMの計算を支配する演算です。特にデコードフェーズでは、M=1、2、4、8などの小さいバッチサイズでモデルがトークンを一つずつ生成する際に重要となります。
- AMDはどのモデルでFlyDSLカーネルをテストしましたか?
- DeepSeek V3、Llama 70B、Llama 450B、Qwen32Bの行列形状を使用し、256コンピュートユニット(gfx950アーキテクチャ)を搭載したAMD Instinct MI355X GPUでテストが実施されました。