AMD: Gluon Block-Level-Modell ermöglicht GEMM-Kernels mit 5,255 TFLOPS MXFP4 auf Instinct MI355
Das AMD ROCm-Team veröffentlichte ein Tutorial zum Schreiben hochperformanter GEMM-Kernels im Gluon-Programmiermodell auf dem MI355-GPU. Ein optimierter FP16-Kernel erreicht 1,489 TFLOPS bei 98,75 Prozent MFMA-Effizienz; Erweiterungen auf BF8 (3,257 TFLOPS) und MXFP4 (5,255 TFLOPS) belegen die Relevanz für moderne KI-Workloads. Das Tutorial umfasst Workgroup-Remapping und Swizzle, das L2-Cache-Misses von 5,3 Mio. auf 4,1 Mio. reduziert.