vLLM TurboQuant studija: FP8 superioran za KV-cache

TurboQuant je metoda agresivne kvantizacije KV-cachea na 3-4 bita koju je Red Hat AI tim sustavno usporedio s FP8 standardom. Rezultati pokazuju da FP8 zadržava propusnost i točnost, dok varijante 3bit-nc gube približno 20 postotnih bodova na zahtjevnim reasoning benchmarkovima poput AIME25.

Inženjeri Red Hat AI tima — Eldar Kurtić, Michael Goin i Alexandre Marques — objavili su 11. svibnja 2026. prvu sveobuhvatnu evaluaciju TurboQuant metode za kvantizaciju KV-cachea u kontekstu vLLM inference enginea. Studija uspoređuje FP8 standard s agresivnijim 3-4 bitnim varijantama na produkcijski relevantnim modelima i benchmarkovima.

Što je TurboQuant i kako se razlikuje od FP8?

TurboQuant je metoda koja komprimira samo pohranu KV-cachea na 3-4 bita i potom dekvantizira vrijednosti natrag na BF16 za izvršavanje attention računice. Suprotno, FP8 kvantizira oba dijela — pohranu i računicu — zadržavajući propusnost kroz cijeli pipeline. Testirane varijante uključuju k8v4 (8-bit ključevi, 4-bit vrijednosti), 4bit-nc (s norm korekcijom) te najagresivniju 3bit-nc.

Koje rezultate pokazuje memorijska kapacitet i propusnost?

Na modelima Llama-3.3-70B, Qwen3-30B i MiniMax-M2.7 mjerene su uštede: FP8 daje 2× kapacitet, k8v4 2.4×, a 4bit-nc 3.4×. Ali propusnost pada — TurboQuant varijante zadržavaju 66-80% baseline brzine, s latencijskim usporenjem 10-68% ovisno o batch sizeu. FP8 zadržava punu baseline propusnost.

Koliko je velik gubitak točnosti na reasoning zadacima?

Na benchmarkovima AIME25, GPQA:Diamond, MATH500 i LiveCodeBench-v6 najagresivnije varijante (3bit-nc, k3v4-nc) gube oko 20 postotnih bodova. Manje agresivni 4bit-nc gubi tek 1-4 boda. Long-context evaluacija na openai/mrcr (do 256k tokena) pokazala je sličan obrazac.

Što Red Hat AI preporučuje za produkcijske deploymente?

Zaključak je nedvosmislen: “FP8 ostaje najbolji default za KV-cache kvantizaciju.” Pruža 2× kapaciteta bez ikakvog gubitka propusnosti ili točnosti. Agresivnije TurboQuant varijante imaju smisla samo u scenarijima ekstremno ograničene memorije gdje 4bit-nc nudi 3.4× uštedu uz minimalan trošak na točnosti.

Česta pitanja

Što je KV-cache i zašto se kvantizira?

KV-cache (key-value cache) memorijska je struktura u transformer modelima koja pohranjuje međurezultate attention sloja za prethodne tokene. Kvantizacija KV-cachea (smanjenje preciznosti s FP16/BF16 na 8 ili manje bita) značajno smanjuje potrošnju VRAM-a i omogućava dulje kontekstne prozore, ali može utjecati na kvalitetu generiranja.

Zašto FP8 nadmašuje agresivnije TurboQuant varijante?

FP8 kvantizira i pohranu i samu attention računicu, dok TurboQuant varijante komprimiraju samo pohranu i dekvantiziraju na BF16 za računicu. Dekvantizacijski trošak skalira s batch sizeom uzrokujući usporenje od 10-68%, dok agresivne 3-bitne varijante gube preciznost potrebnu za matematičko zaključivanje.

Kada se isplati koristiti 4bit-nc unatoč gubitku točnosti?

Varijanta 4bit-nc gubi tek 1-4 boda na benchmarkovima uz 3.4× uštedu memorije, što je prihvatljiv kompromis za scenarije s ekstremnim memorijskim ograničenjima — primjerice serviranje vrlo dugih konteksta (256k tokena) na manjim GPU-ovima gdje FP8 ne stane.

vLLM: TurboQuant studija pokazuje da FP8 ostaje superioran za KV-cache — 3bit-nc pad ~20 pp

Što je TurboQuant i kako se razlikuje od FP8?

Koje rezultate pokazuje memorijska kapacitet i propusnost?

Koliko je velik gubitak točnosti na reasoning zadacima?

Što Red Hat AI preporučuje za produkcijske deploymente?

Česta pitanja

Izvori

Povezane vijesti