AMD: ROCm low-latency GEMM kerneli ubrzavaju LLM inferenciju do 1,79× na Instinct MI355X
AMD je objavio FlyDSL sustav unutar AITER frameworka (AI Tensor Engine for ROCm) koji automatski generira specijalizirane GEMM kernele za LLM decode fazu na AMD GPU-ovima. Rezultat: 1,64× prosječno smanjenje latencije i 1,79× ubrzanje za najkritičnije scenarije s M≤8 tokena, testirano na Instinct MI355X s 256 compute jedinica.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Što je GEMM i decode faza LLM-a?
GEMM (General Matrix Multiply, opće matrično množenje) temeljna je računska operacija koja dominira svakim prolazom kroz veliki jezični model. U prefill fazi model obrađuje ulazni prompt paralelno, no u decode fazi — kada generira izlazne tokene jedan po jedan — batch veličina M je tipično mala: 1, 2, 4, 8 ili 16 redaka. Upravo ta asimetrija (mali M, ali veliki K i N u tisućama) čini decode fazu kritičnim uskim grlom: standardne GEMM rutine optimizirane za visoku propusnost ovdje isporučuju slabu latenciju.
Tri tehnike FlyDSL-a unutar AITER frameworka
AMD je u sklopu ROCm ekosustava razvio AITER (AI Tensor Engine for ROCm) i unutar njega FlyDSL — generator koji automatski sintetizira specijalizirane GEMM kernele. FlyDSL kombinira tri komplementarne tehnike:
- Inter-CTA Split-K paralelizam — proširuje lansirnu mrežu duž K dimenzije, raspoređujući rad na više blokova (CTA-ova) i eliminirajući neiskorištenost GPU resursa.
- Intra-CTA K-slice splitting — unutar jednog CTA-a dijeli K os u manje isječke, povećavajući korisnu paralelnost bez dodatnih sinkronizacijskih troškova.
- LDS pipeline (višefazni) — prekriva prijenos podataka iz globalnog u lokalno dijeljeno memorijsko međuspremanje (LDS) s aktivnim računanjem, skrivajući memorijsku latenciju AMD Instinct MI355X arhitekture (gfx950, 256 compute jedinica).
Rezultati i hardver: 1,64× prosječno, 1,79× za najkritičnije scenarije
Benchmarking je proveden na 32 primarna oblika plus 48 dodatnih varijanti iz stvarnih produkcijskih modela — DeepSeek V3, Llama 70B i Llama 450B te Qwen32B — uspoređujući FlyDSL kernele s tri baseline implementacije: HipblasLT, AITER Triton i AITER ASM. Prosječno smanjenje latencije iznosi 1,64× na ključnim oblicima (K=7168), dok za decode-kritičan scenarij M≤8 tokena ubrzanje doseže 1,79×. Na specifičnim oblicima izmjeren je maksimalni dobitak od 2,37×. Na širem skupu BF16 oblika iz produkcijskih modela prosjek je 1,49×.
Može li AMD programatskim pristupom nadoknaditi softverski zaostatak?
FlyDSL i AITER predstavljaju AMD-ov sustavni odgovor na softverski deficit u ROCm ekosustavu. Dok NVIDIA-in cuBLAS ima višegodišnju prednost, AMD sada generira visokoperformantne kernele programatski — što znači da se optimizacije mogu brzo proširiti na nove GPU arhitekture bez ručnog pisanja asemblerskog koda. Za operatere koji razmatraju prelazak na AMD Instinct infrastrukturu, ovaj napredak u decode latenciji izravno utječe na cijenu po generiranome tokenu.
Česta pitanja
- Što je GEMM i zašto je važan za LLM inferenciju?
- GEMM (General Matrix Multiply) je operacija matrično množenja koja dominira računanjem u LLM-ovima, posebno u decode fazi kada model generira tokene jedan po jedan s malim batch veličinama poput M=1, 2, 4 ili 8.
- Na kojim modelima je AMD testirao FlyDSL kernele?
- Testiranje je provedeno na oblicima matrica iz DeepSeek V3, Llama 70B i Llama 450B te Qwen32B modela, na AMD Instinct MI355X GPU-u s 256 compute jedinica (arhitektura gfx950).
Povezane vijesti
AMD: Resource Manager automatski istiskuje neaktivne GPU workloadove i vraća resurse u zajednički pool klastera
AMD: MXFP4/MXFP6 mixed-precision kvantizacija na MI355X — do 29% veći throughput
NVIDIA i AWS: EC2 G7 instance s Blackwell GPU-om donose 4,6× bolji AI inference