🟡 🔧 ハードウェア 公開日: · 2 分で読めます ·

AMD: Instinct MI355X が ComfyUI ワークフロー 3 種で NVIDIA B200 を上回る——ROCm 7.2.0 の PyTorch 最適化が寄与

Editorial illustration: Instinct MI355X が ComfyUI ワークフロー 3 種で NVIDIA B200 を上回る——ROCm 7.2.0 の PyTorch 最適化が寄与

AMD Instinct MI355X はデータセンター GPU で、発表されたベンチマークで 3 つの ComfyUI 生成ワークフロー——テキストtoビデオ Wan2.2(1.44×)・テキストto画像 FLUX.1-dev(1.42×)・3D Hunyuan3D v2.1(1.20×)——において NVIDIA B200 を上回りました。ROCm 7.2.0 の AOTriton gfx950 カーネル・hipBLASLt GEMM チューニング・その他最適化によって実現しています。

🤖

この記事はAIにより一次情報源から生成されました。

AMD が発表したベンチマークは、Instinct MI355XROCm 7.2.0CDNA4 アーキテクチャ向け PyTorch アテンション最適化を通じて、3 つの ComfyUI 生成ワークフローで NVIDIA B200 を上回ることを示しています。結果は誰でも実行可能な Docker イメージで共有されています。

ワークフロー別の結果

数値は明確です:

  • テキストtoビデオ(Wan2.2):MI355X は 1.439× の高速化を達成、116.91 秒対 B200 の 168.28 秒。
  • テキストto画像(FLUX.1-dev)1.416× 高速、24.77 秒対 35.09 秒。
  • 3D 生成(Hunyuan3D v2.1)1.201× の高速化、21.51 秒対 25.84 秒。

CDNA4 ハードウェア

MI355X は 256 個のコンピュートユニット・288 GB HBM3e メモリ・8 TB/s のメモリ帯域幅を搭載しています。これらのスペックは拡散モデルに典型的なアテンション集約型操作に有利です——大容量メモリにより高解像度画像とビデオフレームの中間表現をタイリングなしに保持でき、帯域幅によりメモリ待ち時間が短縮されます。

ROCm 7.2.0 における最適化

パフォーマンスはハードウェアだけによるものではありません。主要なソフトウェアの改良は:

  • AOTriton gfx950 カーネルサポート — CDNA4 向け事前コンパイル Triton コンパイラーによるネイティブアテンション加速。
  • オキュパンシーチューニング — 効率向上のための warp 数削減。
  • hipBLASLt GEMM 最適化 — FP8・BF16・FP16 向けにチューニングされたカーネル(拡散モデルと transformer 処理で主要なデータ型)。
  • パイプライニングと ThinLTO コンパイラー最適化。

AI ハードウェア市場への意味

3 つの本番シナリオ——ビデオ・画像・3D——は ComfyUI の生成的ユースケースの大部分をカバーします。AMD が 3 つの領域すべてで一貫した数値を示したことは、NVIDIA の長年の構造的優位性であった CUDA/ROCm のギャップが、特定フレームワークのソフトウェア成熟度次第で縮小しつつあることを示しています。ComfyUI ユーザーにとって、AMD は今や少なくともベンチマーク上では正当な選択肢となっています。

よくある質問

CDNA4 アーキテクチャとは何ですか?
CDNA4 は AMD の最新データセンター GPU アーキテクチャで、MI355X に使用されています。256 個のコンピュートユニット・288 GB HBM3e メモリ・8 TB/s のメモリ帯域幅を提供し、transformer や拡散モデルにおけるアテンション集約型操作に特に有利です。
AOTriton と hipBLASLt とは何ですか?
AOTriton は AMD の「事前コンパイル」Triton コンパイラーで、gfx950(CDNA4)向けのネイティブカーネルによりアテンション操作を高速化します。hipBLASLt は AMD の GEMM ライブラリで、FP8/BF16/FP16 向けにチューニングされたカーネルを持ちます——これらは現代の拡散モデルと transformer モデルで主に使用されるデータ型です。
ベンチマーク結果は再現できますか?
AMD は事前設定された最適化を含む Docker イメージを公開しました。ユーザーは同じ設定を実行して結果を再現できます。詳細な数値(Wan2.2:116.91s 対 168.28s、FLUX.1-dev:24.77s 対 35.09s、Hunyuan3D:21.51s 対 25.84s)は公開された表に透明に示されています。