AMD:Instinct MI355X 在三项 ComfyUI 工作流中超越 NVIDIA B200,ROCm 7.2.0 PyTorch 优化加持
AMD Instinct MI355X 是数据中心 GPU,在已发布的基准测试中于三项 ComfyUI 生成工作流上超越 NVIDIA B200——文生视频 Wan2.2(1.44×)、文生图 FLUX.1-dev(1.42×)和 3D Hunyuan3D v2.1(1.20×)——得益于 AOTriton gfx950 内核、hipBLASLt GEMM 调优及 ROCm 7.2.0 中的其他优化。
本文由人工智能基于一手来源生成。
AMD 发布的基准测试表明,Instinct MI355X 通过 ROCm 7.2.0 中针对 CDNA4 架构的 PyTorch 注意力优化,在三项 ComfyUI 生成工作流中超越 NVIDIA B200。结果通过 Docker 镜像共享,任何用户均可运行复现。
各工作流结果
数据清晰明了:
- 文生视频(Wan2.2):MI355X 实现 1.439× 加速,耗时 116.91 秒,对比 B200 的 168.28 秒。
- 文生图(FLUX.1-dev):1.416× 速度提升,24.77 秒对比 35.09 秒。
- 3D 生成(Hunyuan3D v2.1):1.201× 加速,21.51 秒对比 25.84 秒。
CDNA4 硬件
MI355X 配备 256 个计算单元、288 GB HBM3e 内存和 8 TB/s 内存带宽。这些规格有利于扩散模型中典型的注意力密集型操作——大内存无需分块即可保存高分辨率图像和视频帧的中间表示,高带宽减少内存等待时间。
ROCm 7.2.0 中的优化
性能不仅来自硬件。关键软件改进包括:
- AOTriton gfx950 内核支持 — 通过 CDNA4 的提前编译 Triton 编译器实现原生注意力加速。
- 占用率调优 — 减少 warp 数量以提高效率。
- hipBLASLt GEMM 优化 — 为 FP8、BF16 和 FP16 调优内核,这些是扩散和 transformer 工作中的主要数据类型。
- 流水线和 ThinLTO 编译器优化。
对 AI 硬件市场意味着什么?
三项生产场景——视频、图像、3D——涵盖了大多数生成式 ComfyUI 使用案例。AMD 在所有三个领域展示出一致数据,表明长期作为 NVIDIA 结构性优势的 CUDA/ROCm 差距正随着特定框架软件成熟度的提升而缩小。对于 ComfyUI 用户而言,AMD 现已成为真正可行的选择——至少在基准测试层面如此。
常见问题
- 什么是 CDNA4 架构?
- CDNA4 是 AMD 最新的数据中心 GPU 架构,用于 MI355X。它带来 256 个计算单元、288 GB HBM3e 内存和 8 TB/s 内存带宽——对 transformer 和扩散模型中注意力密集型操作尤为有利。
- 什么是 AOTriton 和 hipBLASLt?
- AOTriton 是 AMD 的「提前编译」Triton 编译器,带有 gfx950(CDNA4)的原生内核,加速注意力操作。hipBLASLt 是 AMD 的 GEMM 库,具有为 FP8/BF16/FP16 调优的内核——这些是现代扩散和 transformer 模型主要使用的数据类型。
- 基准测试结果是否可复现?
- AMD 发布了预配置优化的 Docker 镜像。用户可以运行相同配置并复现结果。详细数字(Wan2.2:116.91s vs 168.28s,FLUX.1-dev:24.77s vs 35.09s,Hunyuan3D:21.51s vs 25.84s)透明公开,已在发布的表格中列出。