AMD MI355X 对比 B200：ComfyUI 最高快 1.44×

AMD Instinct MI355X 是数据中心 GPU，在已发布的基准测试中于三项 ComfyUI 生成工作流上超越 NVIDIA B200——文生视频 Wan2.2（1.44×）、文生图 FLUX.1-dev（1.42×）和 3D Hunyuan3D v2.1（1.20×）——得益于 AOTriton gfx950 内核、hipBLASLt GEMM 调优及 ROCm 7.2.0 中的其他优化。

AMD 发布的基准测试表明，Instinct MI355X 通过 ROCm 7.2.0 中针对 CDNA4 架构的 PyTorch 注意力优化，在三项 ComfyUI 生成工作流中超越 NVIDIA B200。结果通过 Docker 镜像共享，任何用户均可运行复现。

各工作流结果

数据清晰明了：

文生视频（Wan2.2）：MI355X 实现 1.439× 加速，耗时 116.91 秒，对比 B200 的 168.28 秒。
文生图（FLUX.1-dev）：1.416× 速度提升，24.77 秒对比 35.09 秒。
3D 生成（Hunyuan3D v2.1）：1.201× 加速，21.51 秒对比 25.84 秒。

CDNA4 硬件

MI355X 配备 256 个计算单元、288 GB HBM3e 内存和 8 TB/s 内存带宽。这些规格有利于扩散模型中典型的注意力密集型操作——大内存无需分块即可保存高分辨率图像和视频帧的中间表示，高带宽减少内存等待时间。

ROCm 7.2.0 中的优化

性能不仅来自硬件。关键软件改进包括：

AOTriton gfx950 内核支持 — 通过 CDNA4 的提前编译 Triton 编译器实现原生注意力加速。
占用率调优 — 减少 warp 数量以提高效率。
hipBLASLt GEMM 优化 — 为 FP8、BF16 和 FP16 调优内核，这些是扩散和 transformer 工作中的主要数据类型。
流水线和 ThinLTO 编译器优化。

对 AI 硬件市场意味着什么？

三项生产场景——视频、图像、3D——涵盖了大多数生成式 ComfyUI 使用案例。AMD 在所有三个领域展示出一致数据，表明长期作为 NVIDIA 结构性优势的 CUDA/ROCm 差距正随着特定框架软件成熟度的提升而缩小。对于 ComfyUI 用户而言，AMD 现已成为真正可行的选择——至少在基准测试层面如此。

常见问题

什么是 CDNA4 架构？

CDNA4 是 AMD 最新的数据中心 GPU 架构，用于 MI355X。它带来 256 个计算单元、288 GB HBM3e 内存和 8 TB/s 内存带宽——对 transformer 和扩散模型中注意力密集型操作尤为有利。

什么是 AOTriton 和 hipBLASLt？

AOTriton 是 AMD 的「提前编译」Triton 编译器，带有 gfx950（CDNA4）的原生内核，加速注意力操作。hipBLASLt 是 AMD 的 GEMM 库，具有为 FP8/BF16/FP16 调优的内核——这些是现代扩散和 transformer 模型主要使用的数据类型。

基准测试结果是否可复现？

AMD 发布了预配置优化的 Docker 镜像。用户可以运行相同配置并复现结果。详细数字（Wan2.2：116.91s vs 168.28s，FLUX.1-dev：24.77s vs 35.09s，Hunyuan3D：21.51s vs 25.84s）透明公开，已在发布的表格中列出。

AMD：Instinct MI355X 在三项 ComfyUI 工作流中超越 NVIDIA B200，ROCm 7.2.0 PyTorch 优化加持

各工作流结果

CDNA4 硬件

ROCm 7.2.0 中的优化

对 AI 硬件市场意味着什么？

常见问题

来源

相关新闻