AMD: Instinct MI355X übertrifft NVIDIA B200 bei ComfyUI-Workflows mit PyTorch-Optimierungen in ROCm 7.2.0
AMD Instinct MI355X ist eine Rechenzentrum-GPU, die in veröffentlichten Benchmarks NVIDIA B200 bei drei generativen ComfyUI-Workflows übertrifft — Text-to-Video Wan2.2 (1,44-fach), Text-to-Image FLUX.1-dev (1,42-fach) und 3D Hunyuan3D v2.1 (1,20-fach) — dank AOTriton gfx950-Kerneln, hipBLASLt-GEMM-Tuning und weiteren ROCm-7.2.0-Optimierungen.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
AMD hat Benchmarks veröffentlicht, die zeigen, dass der Instinct MI355X NVIDIAs B200 bei drei generativen ComfyUI-Workflows durch PyTorch-Attention-Optimierungen für die CDNA4-Architektur in ROCm 7.2.0 übertrifft. Die Ergebnisse werden über ein Docker-Image verteilt, das jeder Nutzer ausführen kann.
Ergebnisse nach Workflow
Die Zahlen sind eindeutig:
- Text-to-Video (Wan2.2): MI355X erreicht einen 1,439-fachen Speedup mit einer Laufzeit von 116,91 Sekunden gegenüber 168,28 s auf dem B200.
- Text-to-Image (FLUX.1-dev): 1,416-fach schneller, 24,77 s vs. 35,09 s.
- 3D-Generierung (Hunyuan3D v2.1): 1,201-facher Speedup, 21,51 s vs. 25,84 s.
CDNA4-Hardware
Der MI355X bietet 256 Compute Units, 288 GB HBM3e-Speicher und eine Speicherbandbreite von 8 TB/s. Diese Spezifikationen begünstigen die Attention-intensiven Operationen, die für Diffusionsmodelle typisch sind — großer Speicher hält Zwischenrepräsentationen hochauflösender Bilder und Video-Frames ohne Tiling, und Bandbreite reduziert Speicherwartezeiten.
Optimierungen in ROCm 7.2.0
Die Performance kommt nicht allein aus der Hardware. Die wichtigsten Software-Neuerungen sind:
- AOTriton gfx950-Kernel-Unterstützung — native Attention-Beschleunigung durch den Ahead-of-Time-Triton-Compiler für CDNA4.
- Belegungsoptimierung — reduzierte Warp-Anzahl für bessere Effizienz.
- hipBLASLt-GEMM-Optimierung — abgestimmte Kernel für FP8, BF16 und FP16, die dominierenden Typen bei Diffusions- und Transformer-Workloads.
- Pipelining und ThinLTO-Compiler-Optimierungen.
Was das für den KI-Hardwaremarkt bedeutet
Drei Produktionsszenarien — Video, Bild, 3D — decken den Großteil der generativen ComfyUI-Anwendungsfälle ab. Dass AMD konsistente Zahlen über alle drei Bereiche zeigt, signalisiert, dass der CUDA/ROCm-Abstand, der lange ein struktureller Vorteil von NVIDIA war, je nach Software-Reife einzelner Frameworks kleiner wird. Für ComfyUI-Nutzer ist AMD jetzt eine legitime Option — zumindest auf Benchmark-Ebene.
Häufig gestellte Fragen
- Was ist die CDNA4-Architektur?
- CDNA4 ist AMDs neueste Rechenzentrum-GPU-Architektur, die im MI355X verwendet wird. Sie bietet 256 Compute Units, 288 GB HBM3e-Speicher und 8 TB/s Speicherbandbreite — besonders vorteilhaft für Attention-intensive Operationen in Transformer- und Diffusionsmodellen.
- Was sind AOTriton und hipBLASLt?
- AOTriton ist AMDs Ahead-of-Time-Triton-Compiler mit nativen Kerneln für gfx950 (CDNA4), der Attention-Operationen beschleunigt. hipBLASLt ist AMDs GEMM-Bibliothek mit abgestimmten Kerneln für FP8/BF16/FP16 — die in modernen Diffusions- und Transformer-Modellen dominierenden Typen.
- Sind die Benchmarks reproduzierbar?
- AMD veröffentlichte ein Docker-Image mit vorkonfigurierten Optimierungen. Jeder kann dieselbe Konfiguration ausführen, um die Ergebnisse zu replizieren. Detaillierte Zahlen (Wan2.2: 116,91 s vs. 168,28 s, FLUX.1-dev: 24,77 s vs. 35,09 s, Hunyuan3D: 21,51 s vs. 25,84 s) sind transparent und in der veröffentlichten Tabelle aufgeführt.
Verwandte Nachrichten
AMD: ROCm 7.13 bringt MI350P-GPU, Multi-VF-Virtualisierung und TheRock-Paketierung
AMD ROCm: BubbleFence partitioniert Video-Streams mit Embeddings aus Vision-Foundation-Modellen statt Metadaten-Heuristiken
AMD ROCm: Kimi-K2.5 W4A8 und W8A8 Quantisierung auf MI325X über den Quark + FlyDSL + AITER Inferenz-Stack