AMD: Instinct MI355X nadmašuje NVIDIA B200 za ComfyUI workflowove uz PyTorch optimizacije u ROCm 7.2.0
AMD Instinct MI355X je data center GPU koji u objavljenom benchmark-u nadmašuje NVIDIA B200 na tri ComfyUI generativna workflowa — text-to-video Wan2.2 (1.44×), text-to-image FLUX.1-dev (1.42×) i 3D Hunyuan3D v2.1 (1.20×) — zahvaljujući AOTriton gfx950 kernelima, hipBLASLt GEMM tuningu i ostalim ROCm 7.2.0 optimizacijama.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
AMD je objavio benchmark-e koji pokazuju da Instinct MI355X nadmašuje NVIDIA-in B200 u tri ComfyUI generativna workflowa kroz PyTorch attention optimizacije za CDNA4 arhitekturu u ROCm 7.2.0. Rezultati su podijeljeni kroz Docker image koji svaki korisnik može pokrenuti.
Rezultati po workflowu
Brojke su jasne:
- Text-to-Video (Wan2.2): MI355X postiže 1.439× speedup uz vrijeme od 116.91 sekundi naspram 168.28 s na B200.
- Text-to-Image (FLUX.1-dev): 1.416× brže, 24.77 s vs. 35.09 s.
- 3D Generacija (Hunyuan3D v2.1): 1.201× speedup, 21.51 s vs. 25.84 s.
CDNA4 hardver
MI355X donosi 256 compute unita, 288 GB HBM3e memorije i memorijsku propusnost od 8 TB/s. Te specifikacije idu u prilog attention-teškim operacijama tipičnim za diffusion modele — velika memorija drži intermedijalne reprezentacije visoko-rezolucijskih slika i video frame-ova bez tiling-a, a propusnost smanjuje vrijeme čekanja na memoriju.
Optimizacije u ROCm 7.2.0
Performansa ne dolazi samo iz hardvera. Ključne softverske novosti su:
- AOTriton gfx950 kernel podrška — native attention akceleracija kroz ahead-of-time Triton compiler za CDNA4.
- Occupancy tuning — smanjeni warp count za bolju efikasnost.
- hipBLASLt GEMM optimizacija — tuned kerneli za FP8, BF16 i FP16, dominantne tipove u diffusion i transformer radu.
- Pipelining i ThinLTO compiler optimizacije.
Što ovo znači za AI hardver tržište?
Tri produkcijska scenarija — video, slika, 3D — pokrivaju većinu generativnih ComfyUI use case-ova. Da AMD pokazuje konzistentne brojke kroz sva tri područja signalizira da CUDA/ROCm jaz, koji je dugo bio strukturalna prednost NVIDIA-e, postaje sve manji ovisi o softverskoj zrelosti pojedinih okvira. Za ComfyUI korisnike, AMD je sada legitiman izbor — barem na razini benchmarka.
Česta pitanja
- Što je CDNA4 arhitektura?
- CDNA4 je AMD-ova najnovija data center GPU arhitektura, korištena u MI355X. Donosi 256 compute unita, 288 GB HBM3e memorije i 8 TB/s memorijske propusnosti — što je posebno povoljno za attention-teške operacije u transformer i diffusion modelima.
- Što su AOTriton i hipBLASLt?
- AOTriton je AMD-ov 'ahead-of-time' Triton compiler s native kernelima za gfx950 (CDNA4) koji ubrzava attention operacije. hipBLASLt je AMD GEMM biblioteka s tuned kernelima za FP8/BF16/FP16 — što su tipovi dominanto korišteni u modernim diffusion i transformer modelima.
- Jesu li benchmark-i ponovljivi?
- AMD je objavio Docker image s pre-konfiguriranim optimizacijama. Korisnik može pokrenuti istu konfiguraciju i replicirati rezultate. Detaljni brojevi (Wan2.2: 116.91s vs 168.28s, FLUX.1-dev: 24.77s vs 35.09s, Hunyuan3D: 21.51s vs 25.84s) su transparentni i u objavljenoj tablici.
Povezane vijesti
AMD: ROCm 7.13 donosi MI350P GPU, multi-VF virtualizaciju i TheRock pakiranje
AMD ROCm: BubbleFence dijeli video streamove embeddingom iz Vision Foundation modela umjesto metadata heuristika
AMD ROCm: Kimi-K2.5 W4A8 i W8A8 kvantizacija na MI325X kroz Quark + FlyDSL + AITER inference stack