AMD: MXFP4/MXFP6 mixed-precision kvantizacija na MI355X — do 29% veći throughput
AMD je na Instinct MI355X akceleratoru demonstrirao W_MXFP4_A_MXFP6 mixed-precision kvantizaciju koja donosi do 29% veći throughput uz zadržavanje točnosti bliske FP8 standardu, koristeći vLLM framework za produkcijsku inferenciju.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
AMD MI355X i nova strategija kvantizacije
AMD je objavio rezultate W_MXFP4_A_MXFP6 kvantizacije — tehnike mixed-precision (mješovite preciznosti) koja koristi 4-bitne težine i 6-bitne aktivacije neuralne mreže — na svom Instinct MI355X AI akceleratoru. Cilj je postići ravnotežu između brzine inferencije i numeričke točnosti modela, koristeći vLLM framework za produkcijsko okruženje.
Koliko je veći throughput u praksi?
Na modelu Llama-3.1-8B, W_MXFP4_A_MXFP6 pristup donosi +29% throughputa u usporedbi s BF16 baznom linijom. Na većem Qwen3.6-27B modelu poboljšanje iznosi +27%. Oba rezultata nadmašuju čisti MXFP4 pristup koji pati od većeg gubitka točnosti.
Točnost: kompromis između brzine i preciznosti
Preciznost ostaje bliža FP8 standardu nego čistom MXFP4. Na Llama-3.1-8B GSM8K benchmarku, mixed-precision postiže 76,42% — znatno bolje od čistog MXFP4 koji daje samo 62,55%, no malo ispod FP8 koji postiže 80,44%. Sličan obrazac pokazuje i Qwen3.6-27B na AIME26 benchmarku: mixed-precision 85,8% naspram FP8 86,7% i čistog MXFP4 koji pada na 80,0%.
Latencija: TTFT se smanjuje za više od sekunde
TTFT (Time To First Token — vrijeme od slanja upita do pojave prvog generiranog tokena) na Llama-3.1-8B pada s 6.409 ms na 5.159 ms, što je poboljšanje od oko 1,25 sekunde. Za produkcijske sustave s velikim brojem konkurentnih zahtjeva, ovakvo smanjenje latencije direktno se odražava na korisničko iskustvo.
Zaključak: praktičan kompromis za produkciju
W_MXFP4_A_MXFP6 na MI355X pozicionira se kao zrelo rješenje za produkcijsku inferenciju: throughput blizak čistom MXFP4, a točnost bliska FP8 — bez potrebe za odabirom između jednog ili drugog. AMD time direktno konkurira NVIDIA FP8 inferenciji na H100/H200 arhitekturama, nudeći alternativu unutar ROCm ekosustava za organizacije koje već koriste AMD hardver ili žele izbjeći ovisnost o jedinom dobavljaču GPU infrastrukture.
Česta pitanja
- Što je mixed-precision kvantizacija i zašto je važna?
- Mixed-precision kvantizacija je tehnika kompresije AI modela u kojoj se težine i aktivacije neuralne mreže pohranuju u različitim numeričkim formatima — primjerice 4-bitne težine i 6-bitne aktivacije — čime se smanjuje memorijski otisak i ubrzava inferencija uz minimalan gubitak točnosti.
- Što je TTFT i koliko se smanjio na MI355X?
- TTFT (Time To First Token) mjeri kašnjenje od slanja upita do pojave prvog generiranog tokena. Na Llama-3.1-8B modelu, AMD je TTFT smanjio s 6.409 ms na 5.159 ms primjenom MXFP4/MXFP6 pristupa.