arXiv:2606.20474: UltraQuant smanjuje latenciju KV predmemorije za 3,47× s 4-bitnom preciznošću
UltraQuant je tehnika kompresije KV predmemorije na 4-bitnu preciznost za višeokretne LLM agente. Razvijen na AMD, UCLA i Purdue, postiže 3,47× brže P50 TTFT u kasnim rundama s visokim pritiskom konteksta i 1,63× veću propusnost izlaza u usporedbi s FP8 baznom linijom.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
UltraQuant: 4-bitna kompresija KV predmemorije za agentske LLM radne tokove
Inesh Chakrabarti i suradnici s AMD-a, UCLA-a i Purdue sveučilišta objavili su UltraQuant — sustav koji komprimira KV predmemoriju (key-value cache) višeokretnih LLM agenata s FP16/FP8 na 4-bitnu preciznost (FP4), znatno smanjujući pritisak na memorijsku propusnost.
Asimetričan pristup: FP8 upiti, FP4 ključevi i vrijednosti
KV predmemorija je bottleneck u dugim agentskim razgovorima jer raste linearno s duljinom konteksta. UltraQuant uvodi asimetričan tretman: upiti (queries) ostaju u FP8, dok se ključevi i vrijednosti kvantiziraju na FP4 putem Walsh-Hadamard rotacije koja redistribuira outliere i smanjuje grešku kvantizacije. AMD GPU-i s izvornom scaled-MFMA podrškom izvršavaju FP4 matrične množenje hardverski, bez softverske emulacije.
Rezultati: 3,47× brži TTFT u kasnim rundama
Na AMD hardveru s aktiviranim scaled-MFMA:
- P50 TTFT (time-to-first-token) u kasnim rundama pod visokim pritiskom konteksta: 3,47× brži vs. FP8 bazna linija
- Prosječno poboljšanje TTFT kroz sve runde: 2,3×
- Izlazna propusnost: 1,63× više tokena po sekundi
Za usporedbu, standardna FP8 kvantizacija tipično donosi 1,3–1,5× ubrzanje TTFT uz potrebu za višim memorijskim kapacitetom. UltraQuant je posebno učinkovit u agentica s mnogo izmjena (multi-turn), gdje KV predmemorija kasnih rundi postaje dominantno usko grlo.
Primjena: višeokretni agentski scenariji
Rad je usmjeren na produkcijske scenarije poput chatbotova, RAG pipeline-ova i kodnih agenata gdje duljina konteksta raste s brojem izmjena. Autori ističu da je UltraQuant komplementaran tehnikama kao što su GQA (grouped-query attention) i PagedAttention, s kojima se može kombinirati.
Rad je predan 18. lipnja 2026., objavljen 19. lipnja na arXiv-u (arXiv:2606.20474).
Česta pitanja
- Što je KV predmemorija i zašto je važna za LLM agente?
- KV (key-value) predmemorija pohranjuje međurezultate pažnje u transformerima kako bi se izbjeglo ponovano računanje pri svakom novom tokenu — kritično za višeokretne agentske razgovore s dugim kontekstom.
- Na kojim GPU-ima radi UltraQuant i zahtijeva li poseban hardver?
- UltraQuant koristi AMD GPU-e s izvornom podrškom za scaled-MFMA operacije (matično FP4), što mu omogućuje punu hardversku akceleraciju bez softverske emulacije.
- Kako UltraQuant tretira ključeve i vrijednosti različito?
- Primjenjuje asimetričan pristup: upiti ostaju u FP8 preciznosti, dok se ključevi i vrijednosti komprimiraju na FP4 uz Walsh-Hadamard rotaciju koja smanjuje grešku kvantizacije.
Izvori
Povezane vijesti
Anthropic: Claude Code v2.1.183 blokira destruktivne git i infrastrukturne naredbe u auto modu
AWS: SageMaker dobiva preko 100 detaljnih inference metrika i Insights nadzornu ploču na CloudWatchu
GitHub: Copilot gasi Opus 4.6 (fast) 29. lipnja, dodaje AGENTS.md u code review i polje ai_credits_used u API