AMD:Gluon 블록 수준 모델로 Instinct MI355에서 MXFP4 5.255 TFLOPS GEMM 커널 구현
AMD ROCm 팀이 MI355 GPU에서 Gluon 프로그래밍 모델로 고성능 GEMM 커널을 작성하는 튜토리얼을 공개했습니다. 최적화된 FP16 커널은 MFMA 효율 98.75%로 1.489 TFLOPS를 달성했으며, BF8(3.257 TFLOPS)과 MXFP4(5.255 TFLOPS)로의 확장은 현대 AI 워크로드에 대한 적합성을 입증합니다. 튜토리얼에는 L2 캐시 미스를 530만에서 410만으로 줄이는 워크그룹 리매핑과 swizzle 기법이 포함되어 있습니다.