🟡 🔧 Hardware Veröffentlicht: · 2 Min. Lesezeit ·

AMD: Instinct MI355X übertrifft NVIDIA B200 bei ComfyUI-Workflows mit PyTorch-Optimierungen in ROCm 7.2.0

Editorial illustration: Instinct MI355X übertrifft NVIDIA B200 bei ComfyUI-Workflows mit PyTorch-Optimierungen in ROCm 7.2.0

AMD Instinct MI355X ist eine Rechenzentrum-GPU, die in veröffentlichten Benchmarks NVIDIA B200 bei drei generativen ComfyUI-Workflows übertrifft — Text-to-Video Wan2.2 (1,44-fach), Text-to-Image FLUX.1-dev (1,42-fach) und 3D Hunyuan3D v2.1 (1,20-fach) — dank AOTriton gfx950-Kerneln, hipBLASLt-GEMM-Tuning und weiteren ROCm-7.2.0-Optimierungen.

🤖

Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.

AMD hat Benchmarks veröffentlicht, die zeigen, dass der Instinct MI355X NVIDIAs B200 bei drei generativen ComfyUI-Workflows durch PyTorch-Attention-Optimierungen für die CDNA4-Architektur in ROCm 7.2.0 übertrifft. Die Ergebnisse werden über ein Docker-Image verteilt, das jeder Nutzer ausführen kann.

Ergebnisse nach Workflow

Die Zahlen sind eindeutig:

  • Text-to-Video (Wan2.2): MI355X erreicht einen 1,439-fachen Speedup mit einer Laufzeit von 116,91 Sekunden gegenüber 168,28 s auf dem B200.
  • Text-to-Image (FLUX.1-dev): 1,416-fach schneller, 24,77 s vs. 35,09 s.
  • 3D-Generierung (Hunyuan3D v2.1): 1,201-facher Speedup, 21,51 s vs. 25,84 s.

CDNA4-Hardware

Der MI355X bietet 256 Compute Units, 288 GB HBM3e-Speicher und eine Speicherbandbreite von 8 TB/s. Diese Spezifikationen begünstigen die Attention-intensiven Operationen, die für Diffusionsmodelle typisch sind — großer Speicher hält Zwischenrepräsentationen hochauflösender Bilder und Video-Frames ohne Tiling, und Bandbreite reduziert Speicherwartezeiten.

Optimierungen in ROCm 7.2.0

Die Performance kommt nicht allein aus der Hardware. Die wichtigsten Software-Neuerungen sind:

  • AOTriton gfx950-Kernel-Unterstützung — native Attention-Beschleunigung durch den Ahead-of-Time-Triton-Compiler für CDNA4.
  • Belegungsoptimierung — reduzierte Warp-Anzahl für bessere Effizienz.
  • hipBLASLt-GEMM-Optimierung — abgestimmte Kernel für FP8, BF16 und FP16, die dominierenden Typen bei Diffusions- und Transformer-Workloads.
  • Pipelining und ThinLTO-Compiler-Optimierungen.

Was das für den KI-Hardwaremarkt bedeutet

Drei Produktionsszenarien — Video, Bild, 3D — decken den Großteil der generativen ComfyUI-Anwendungsfälle ab. Dass AMD konsistente Zahlen über alle drei Bereiche zeigt, signalisiert, dass der CUDA/ROCm-Abstand, der lange ein struktureller Vorteil von NVIDIA war, je nach Software-Reife einzelner Frameworks kleiner wird. Für ComfyUI-Nutzer ist AMD jetzt eine legitime Option — zumindest auf Benchmark-Ebene.

Häufig gestellte Fragen

Was ist die CDNA4-Architektur?
CDNA4 ist AMDs neueste Rechenzentrum-GPU-Architektur, die im MI355X verwendet wird. Sie bietet 256 Compute Units, 288 GB HBM3e-Speicher und 8 TB/s Speicherbandbreite — besonders vorteilhaft für Attention-intensive Operationen in Transformer- und Diffusionsmodellen.
Was sind AOTriton und hipBLASLt?
AOTriton ist AMDs Ahead-of-Time-Triton-Compiler mit nativen Kerneln für gfx950 (CDNA4), der Attention-Operationen beschleunigt. hipBLASLt ist AMDs GEMM-Bibliothek mit abgestimmten Kerneln für FP8/BF16/FP16 — die in modernen Diffusions- und Transformer-Modellen dominierenden Typen.
Sind die Benchmarks reproduzierbar?
AMD veröffentlichte ein Docker-Image mit vorkonfigurierten Optimierungen. Jeder kann dieselbe Konfiguration ausführen, um die Ergebnisse zu replizieren. Detaillierte Zahlen (Wan2.2: 116,91 s vs. 168,28 s, FLUX.1-dev: 24,77 s vs. 35,09 s, Hunyuan3D: 21,51 s vs. 25,84 s) sind transparent und in der veröffentlichten Tabelle aufgeführt.