AMD ROCm GEMMカーネル: LLM推論が1.79倍速く

AMDはAITERフレームワーク（AI Tensor Engine for ROCm）内にFlyDSLシステムを発表しました。AMD GPU上のLLMデコードフェーズ向けに特化したGEMMカーネルを自動生成します。結果：M≤8トークンの最も重要なシナリオで平均1.64倍のレイテンシ削減と1.79倍の高速化を達成し、256コンピュートユニットを搭載したInstinct MI355Xでテスト済みです。

GEMMとLLMのデコードフェーズとは？

GEMM（General Matrix Multiply、汎用行列乗算）は大規模言語モデルへの各処理を支配する基本的な計算演算です。プリフィルフェーズではモデルが入力プロンプトを並列に処理しますが、デコードフェーズ — 出力トークンを一つずつ生成する段階 — ではバッチサイズ M は一般的に小さくなります：1、2、4、8、または16行です。この非対称性（小さい M に対して数千単位の大きい K と N）がデコードフェーズを重大なボトルネックにします：高スループット向けに最適化された標準的なGEMMルーチンはここで低いレイテンシしか提供できません。

AITERフレームワーク内のFlyDSLの3つの技術

AMDはROCmエコシステムの中でAITER（AI Tensor Engine for ROCm）と、その内部にFlyDSL — 特化したGEMMカーネルを自動合成するジェネレーター — を開発しました。FlyDSLは3つの相補的な技術を組み合わせています：

Inter-CTA Split-K並列処理 — K次元に沿ってラウンチグリッドを拡張し、複数のブロック（CTA）に処理を分散してGPUリソースの未使用を排除します。
Intra-CTA Kスライス分割 — 単一のCTA内でK軸を小さなスライスに分割し、追加の同期コストなしに有効な並列性を高めます。
LDSパイプライン（多段階） — グローバルメモリからローカル共有メモリバッファ（LDS）へのデータ転送をアクティブな計算とオーバーラップさせ、AMD Instinct MI355Xアーキテクチャ（gfx950、256コンピュートユニット）のメモリレイテンシを隠蔽します。

結果とハードウェア：平均1.64倍、最も重要なシナリオで1.79倍

実際のプロダクションモデルであるDeepSeek V3、Llama 70B、Llama 450B、Qwen32Bから32の主要な形状と48の追加バリアントでベンチマークを実施し、FlyDSLカーネルをHipblasLT、AITER Triton、AITER ASMの3つのベースライン実装と比較しました。主要な形状（K=7168）での平均レイテンシ削減は1.64倍で、デコードに重要なM≤8トークンのシナリオでは1.79倍の高速化に達します。特定の形状では最大2.37倍の向上が測定されました。プロダクションモデルからのより広いBF16形状セットでは平均1.49倍です。

AMDはプログラム的アプローチでソフトウェアの遅れを挽回できるか？

FlyDSLとAITERはROCmエコシステムにおけるAMDのソフトウェア不足への体系的な対応を示しています。NVIDIAのcuBLASが数年の優位性を持つ中、AMDは現在プログラム的に高性能カーネルを生成しており、アセンブラコードの手書きなしに新しいGPUアーキテクチャへの最適化を素早く展開できます。AMD Instantインフラへの移行を検討しているオペレーターにとって、デコードレイテンシのこの向上は生成トークンあたりのコストに直接影響します。

よくある質問

GEMMとは何か、なぜLLM推論において重要なのですか？

GEMM（General Matrix Multiply、汎用行列乗算）はLLMの計算を支配する演算です。特にデコードフェーズでは、M=1、2、4、8などの小さいバッチサイズでモデルがトークンを一つずつ生成する際に重要となります。

AMDはどのモデルでFlyDSLカーネルをテストしましたか？

DeepSeek V3、Llama 70B、Llama 450B、Qwen32Bの行列形状を使用し、256コンピュートユニット（gfx950アーキテクチャ）を搭載したAMD Instinct MI355X GPUでテストが実施されました。

AMD: ROCm低レイテンシGEMMカーネルがInstinct MI355XのLLM推論を最大1.79倍高速化

GEMMとLLMのデコードフェーズとは？

AITERフレームワーク内のFlyDSLの3つの技術

結果とハードウェア：平均1.64倍、最も重要なシナリオで1.79倍

AMDはプログラム的アプローチでソフトウェアの遅れを挽回できるか？

よくある質問

出典

関連ニュース