🟢 🏥 U praksi Objavljeno: · 2 min čitanja ·

arXiv:2606.20474: UltraQuant smanjuje latenciju KV predmemorije za 3,47× s 4-bitnom preciznošću

arXiv:2606.20474 ↗

Urednička ilustracija: UltraQuant smanjuje latenciju KV predmemorije za 3,47× s 4-bitnom preciznošću

UltraQuant je tehnika kompresije KV predmemorije na 4-bitnu preciznost za višeokretne LLM agente. Razvijen na AMD, UCLA i Purdue, postiže 3,47× brže P50 TTFT u kasnim rundama s visokim pritiskom konteksta i 1,63× veću propusnost izlaza u usporedbi s FP8 baznom linijom.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.

UltraQuant: 4-bitna kompresija KV predmemorije za agentske LLM radne tokove

Inesh Chakrabarti i suradnici s AMD-a, UCLA-a i Purdue sveučilišta objavili su UltraQuant — sustav koji komprimira KV predmemoriju (key-value cache) višeokretnih LLM agenata s FP16/FP8 na 4-bitnu preciznost (FP4), znatno smanjujući pritisak na memorijsku propusnost.

Asimetričan pristup: FP8 upiti, FP4 ključevi i vrijednosti

KV predmemorija je bottleneck u dugim agentskim razgovorima jer raste linearno s duljinom konteksta. UltraQuant uvodi asimetričan tretman: upiti (queries) ostaju u FP8, dok se ključevi i vrijednosti kvantiziraju na FP4 putem Walsh-Hadamard rotacije koja redistribuira outliere i smanjuje grešku kvantizacije. AMD GPU-i s izvornom scaled-MFMA podrškom izvršavaju FP4 matrične množenje hardverski, bez softverske emulacije.

Rezultati: 3,47× brži TTFT u kasnim rundama

Na AMD hardveru s aktiviranim scaled-MFMA:

  • P50 TTFT (time-to-first-token) u kasnim rundama pod visokim pritiskom konteksta: 3,47× brži vs. FP8 bazna linija
  • Prosječno poboljšanje TTFT kroz sve runde: 2,3×
  • Izlazna propusnost: 1,63× više tokena po sekundi

Za usporedbu, standardna FP8 kvantizacija tipično donosi 1,3–1,5× ubrzanje TTFT uz potrebu za višim memorijskim kapacitetom. UltraQuant je posebno učinkovit u agentica s mnogo izmjena (multi-turn), gdje KV predmemorija kasnih rundi postaje dominantno usko grlo.

Primjena: višeokretni agentski scenariji

Rad je usmjeren na produkcijske scenarije poput chatbotova, RAG pipeline-ova i kodnih agenata gdje duljina konteksta raste s brojem izmjena. Autori ističu da je UltraQuant komplementaran tehnikama kao što su GQA (grouped-query attention) i PagedAttention, s kojima se može kombinirati.

Rad je predan 18. lipnja 2026., objavljen 19. lipnja na arXiv-u (arXiv:2606.20474).

Česta pitanja

Što je KV predmemorija i zašto je važna za LLM agente?
KV (key-value) predmemorija pohranjuje međurezultate pažnje u transformerima kako bi se izbjeglo ponovano računanje pri svakom novom tokenu — kritično za višeokretne agentske razgovore s dugim kontekstom.
Na kojim GPU-ima radi UltraQuant i zahtijeva li poseban hardver?
UltraQuant koristi AMD GPU-e s izvornom podrškom za scaled-MFMA operacije (matično FP4), što mu omogućuje punu hardversku akceleraciju bez softverske emulacije.
Kako UltraQuant tretira ključeve i vrijednosti različito?
Primjenjuje asimetričan pristup: upiti ostaju u FP8 preciznosti, dok se ključevi i vrijednosti komprimiraju na FP4 uz Walsh-Hadamard rotaciju koja smanjuje grešku kvantizacije.