AMD ROCm GEMM kerneli: 1,79× brža LLM inferencija

AMD je objavio FlyDSL sustav unutar AITER frameworka (AI Tensor Engine for ROCm) koji automatski generira specijalizirane GEMM kernele za LLM decode fazu na AMD GPU-ovima. Rezultat: 1,64× prosječno smanjenje latencije i 1,79× ubrzanje za najkritičnije scenarije s M≤8 tokena, testirano na Instinct MI355X s 256 compute jedinica.

Što je GEMM i decode faza LLM-a?

GEMM (General Matrix Multiply, opće matrično množenje) temeljna je računska operacija koja dominira svakim prolazom kroz veliki jezični model. U prefill fazi model obrađuje ulazni prompt paralelno, no u decode fazi — kada generira izlazne tokene jedan po jedan — batch veličina M je tipično mala: 1, 2, 4, 8 ili 16 redaka. Upravo ta asimetrija (mali M, ali veliki K i N u tisućama) čini decode fazu kritičnim uskim grlom: standardne GEMM rutine optimizirane za visoku propusnost ovdje isporučuju slabu latenciju.

Tri tehnike FlyDSL-a unutar AITER frameworka

AMD je u sklopu ROCm ekosustava razvio AITER (AI Tensor Engine for ROCm) i unutar njega FlyDSL — generator koji automatski sintetizira specijalizirane GEMM kernele. FlyDSL kombinira tri komplementarne tehnike:

Inter-CTA Split-K paralelizam — proširuje lansirnu mrežu duž K dimenzije, raspoređujući rad na više blokova (CTA-ova) i eliminirajući neiskorištenost GPU resursa.
Intra-CTA K-slice splitting — unutar jednog CTA-a dijeli K os u manje isječke, povećavajući korisnu paralelnost bez dodatnih sinkronizacijskih troškova.
LDS pipeline (višefazni) — prekriva prijenos podataka iz globalnog u lokalno dijeljeno memorijsko međuspremanje (LDS) s aktivnim računanjem, skrivajući memorijsku latenciju AMD Instinct MI355X arhitekture (gfx950, 256 compute jedinica).

Rezultati i hardver: 1,64× prosječno, 1,79× za najkritičnije scenarije

Benchmarking je proveden na 32 primarna oblika plus 48 dodatnih varijanti iz stvarnih produkcijskih modela — DeepSeek V3, Llama 70B i Llama 450B te Qwen32B — uspoređujući FlyDSL kernele s tri baseline implementacije: HipblasLT, AITER Triton i AITER ASM. Prosječno smanjenje latencije iznosi 1,64× na ključnim oblicima (K=7168), dok za decode-kritičan scenarij M≤8 tokena ubrzanje doseže 1,79×. Na specifičnim oblicima izmjeren je maksimalni dobitak od 2,37×. Na širem skupu BF16 oblika iz produkcijskih modela prosjek je 1,49×.

Može li AMD programatskim pristupom nadoknaditi softverski zaostatak?

FlyDSL i AITER predstavljaju AMD-ov sustavni odgovor na softverski deficit u ROCm ekosustavu. Dok NVIDIA-in cuBLAS ima višegodišnju prednost, AMD sada generira visokoperformantne kernele programatski — što znači da se optimizacije mogu brzo proširiti na nove GPU arhitekture bez ručnog pisanja asemblerskog koda. Za operatere koji razmatraju prelazak na AMD Instinct infrastrukturu, ovaj napredak u decode latenciji izravno utječe na cijenu po generiranome tokenu.

Česta pitanja

Što je GEMM i zašto je važan za LLM inferenciju?

GEMM (General Matrix Multiply) je operacija matrično množenja koja dominira računanjem u LLM-ovima, posebno u decode fazi kada model generira tokene jedan po jedan s malim batch veličinama poput M=1, 2, 4 ili 8.

Na kojim modelima je AMD testirao FlyDSL kernele?

Testiranje je provedeno na oblicima matrica iz DeepSeek V3, Llama 70B i Llama 450B te Qwen32B modela, na AMD Instinct MI355X GPU-u s 256 compute jedinica (arhitektura gfx950).

AMD: ROCm low-latency GEMM kerneli ubrzavaju LLM inferenciju do 1,79× na Instinct MI355X

Što je GEMM i decode faza LLM-a?

Tri tehnike FlyDSL-a unutar AITER frameworka

Rezultati i hardver: 1,64× prosječno, 1,79× za najkritičnije scenarije

Može li AMD programatskim pristupom nadoknaditi softverski zaostatak?

Česta pitanja

Izvori

Povezane vijesti