AMD: Gluon block-level model omogućuje GEMM kernele s 5.255 TFLOPS MXFP4 na Instinct MI355
AMD ROCm tim objavio je tutorial za pisanje high-performance GEMM kernela u Gluon programskom modelu na MI355 GPU-u. Optimirani FP16 kernel postiže 1.489 TFLOPS uz 98,75 posto MFMA efikasnosti, dok proširenja na BF8 (3.257 TFLOPS) i MXFP4 (5.255 TFLOPS) demonstriraju relevantnost za moderne AI workloade. Tutorial uključuje workgroup remapping i swizzle koji reducira L2 cache misses s 5,3 M na 4,1 M.