🟡 🔧 硬件 发布于: · 1 分钟阅读 ·

AMD:Instinct MI355X 在三项 ComfyUI 工作流中超越 NVIDIA B200,ROCm 7.2.0 PyTorch 优化加持

Editorial illustration: Instinct MI355X 在三项 ComfyUI 工作流中超越 NVIDIA B200,ROCm 7.2.0 PyTorch 优化加持

AMD Instinct MI355X 是数据中心 GPU,在已发布的基准测试中于三项 ComfyUI 生成工作流上超越 NVIDIA B200——文生视频 Wan2.2(1.44×)、文生图 FLUX.1-dev(1.42×)和 3D Hunyuan3D v2.1(1.20×)——得益于 AOTriton gfx950 内核、hipBLASLt GEMM 调优及 ROCm 7.2.0 中的其他优化。

🤖

本文由人工智能基于一手来源生成。

AMD 发布的基准测试表明,Instinct MI355X 通过 ROCm 7.2.0 中针对 CDNA4 架构的 PyTorch 注意力优化,在三项 ComfyUI 生成工作流中超越 NVIDIA B200。结果通过 Docker 镜像共享,任何用户均可运行复现。

各工作流结果

数据清晰明了:

  • 文生视频(Wan2.2):MI355X 实现 1.439× 加速,耗时 116.91 秒,对比 B200 的 168.28 秒。
  • 文生图(FLUX.1-dev)1.416× 速度提升,24.77 秒对比 35.09 秒。
  • 3D 生成(Hunyuan3D v2.1)1.201× 加速,21.51 秒对比 25.84 秒。

CDNA4 硬件

MI355X 配备 256 个计算单元、288 GB HBM3e 内存和 8 TB/s 内存带宽。这些规格有利于扩散模型中典型的注意力密集型操作——大内存无需分块即可保存高分辨率图像和视频帧的中间表示,高带宽减少内存等待时间。

ROCm 7.2.0 中的优化

性能不仅来自硬件。关键软件改进包括:

  • AOTriton gfx950 内核支持 — 通过 CDNA4 的提前编译 Triton 编译器实现原生注意力加速。
  • 占用率调优 — 减少 warp 数量以提高效率。
  • hipBLASLt GEMM 优化 — 为 FP8、BF16 和 FP16 调优内核,这些是扩散和 transformer 工作中的主要数据类型。
  • 流水线和 ThinLTO 编译器优化。

对 AI 硬件市场意味着什么?

三项生产场景——视频、图像、3D——涵盖了大多数生成式 ComfyUI 使用案例。AMD 在所有三个领域展示出一致数据,表明长期作为 NVIDIA 结构性优势的 CUDA/ROCm 差距正随着特定框架软件成熟度的提升而缩小。对于 ComfyUI 用户而言,AMD 现已成为真正可行的选择——至少在基准测试层面如此。

常见问题

什么是 CDNA4 架构?
CDNA4 是 AMD 最新的数据中心 GPU 架构,用于 MI355X。它带来 256 个计算单元、288 GB HBM3e 内存和 8 TB/s 内存带宽——对 transformer 和扩散模型中注意力密集型操作尤为有利。
什么是 AOTriton 和 hipBLASLt?
AOTriton 是 AMD 的「提前编译」Triton 编译器,带有 gfx950(CDNA4)的原生内核,加速注意力操作。hipBLASLt 是 AMD 的 GEMM 库,具有为 FP8/BF16/FP16 调优的内核——这些是现代扩散和 transformer 模型主要使用的数据类型。
基准测试结果是否可复现?
AMD 发布了预配置优化的 Docker 镜像。用户可以运行相同配置并复现结果。详细数字(Wan2.2:116.91s vs 168.28s,FLUX.1-dev:24.77s vs 35.09s,Hunyuan3D:21.51s vs 25.84s)透明公开,已在发布的表格中列出。