🟡 🔧 Hardware Objavljeno: · 2 min čitanja ·

AMD: MXFP4/MXFP6 mixed-precision kvantizacija na MI355X — do 29% veći throughput

Editorial illustration: AMD Instinct MI355X GPU akcelerator s dijagramom mixed-precision kvantizacije i grafom throughputa

AMD je na Instinct MI355X akceleratoru demonstrirao W_MXFP4_A_MXFP6 mixed-precision kvantizaciju koja donosi do 29% veći throughput uz zadržavanje točnosti bliske FP8 standardu, koristeći vLLM framework za produkcijsku inferenciju.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.

AMD MI355X i nova strategija kvantizacije

AMD je objavio rezultate W_MXFP4_A_MXFP6 kvantizacije — tehnike mixed-precision (mješovite preciznosti) koja koristi 4-bitne težine i 6-bitne aktivacije neuralne mreže — na svom Instinct MI355X AI akceleratoru. Cilj je postići ravnotežu između brzine inferencije i numeričke točnosti modela, koristeći vLLM framework za produkcijsko okruženje.

Koliko je veći throughput u praksi?

Na modelu Llama-3.1-8B, W_MXFP4_A_MXFP6 pristup donosi +29% throughputa u usporedbi s BF16 baznom linijom. Na većem Qwen3.6-27B modelu poboljšanje iznosi +27%. Oba rezultata nadmašuju čisti MXFP4 pristup koji pati od većeg gubitka točnosti.

Točnost: kompromis između brzine i preciznosti

Preciznost ostaje bliža FP8 standardu nego čistom MXFP4. Na Llama-3.1-8B GSM8K benchmarku, mixed-precision postiže 76,42% — znatno bolje od čistog MXFP4 koji daje samo 62,55%, no malo ispod FP8 koji postiže 80,44%. Sličan obrazac pokazuje i Qwen3.6-27B na AIME26 benchmarku: mixed-precision 85,8% naspram FP8 86,7% i čistog MXFP4 koji pada na 80,0%.

Latencija: TTFT se smanjuje za više od sekunde

TTFT (Time To First Token — vrijeme od slanja upita do pojave prvog generiranog tokena) na Llama-3.1-8B pada s 6.409 ms na 5.159 ms, što je poboljšanje od oko 1,25 sekunde. Za produkcijske sustave s velikim brojem konkurentnih zahtjeva, ovakvo smanjenje latencije direktno se odražava na korisničko iskustvo.

Zaključak: praktičan kompromis za produkciju

W_MXFP4_A_MXFP6 na MI355X pozicionira se kao zrelo rješenje za produkcijsku inferenciju: throughput blizak čistom MXFP4, a točnost bliska FP8 — bez potrebe za odabirom između jednog ili drugog. AMD time direktno konkurira NVIDIA FP8 inferenciji na H100/H200 arhitekturama, nudeći alternativu unutar ROCm ekosustava za organizacije koje već koriste AMD hardver ili žele izbjeći ovisnost o jedinom dobavljaču GPU infrastrukture.

Česta pitanja

Što je mixed-precision kvantizacija i zašto je važna?
Mixed-precision kvantizacija je tehnika kompresije AI modela u kojoj se težine i aktivacije neuralne mreže pohranuju u različitim numeričkim formatima — primjerice 4-bitne težine i 6-bitne aktivacije — čime se smanjuje memorijski otisak i ubrzava inferencija uz minimalan gubitak točnosti.
Što je TTFT i koliko se smanjio na MI355X?
TTFT (Time To First Token) mjeri kašnjenje od slanja upita do pojave prvog generiranog tokena. Na Llama-3.1-8B modelu, AMD je TTFT smanjio s 6.409 ms na 5.159 ms primjenom MXFP4/MXFP6 pristupa.