arXiv:2605.19660: OScaR — INT2 kvantizacija KV cachea donosi 3× brži decoding
Istraživači su objavili OScaR, metodu koja rješava temeljni problem kvantizacije KV cachea u velikim jezičnim modelima. Koristeći INT2 preciznost — svega 2 bita po vrijednosti — postiže gotovo bez gubitka točnosti, 3× brži decoding, 5,3× manje memorije i 4,1× veći throughput u usporedbi s BF16 FlashDecoding-v2.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Memorija je danas jedna od najvećih prepreka za pokretanje velikih jezičnih modela u produkciji. Svaki put kad model generira novi token, mora imati dostupan cijeli kontekst razgovora — a ta privremena memorija, poznata kao KV cache (Key-Value cache), raste linearno s duljinom konteksta i može zauzeti desecima gigabajta RAM-a na GPU-u.
Zašto je ekstremna kompresija KV cachea bila neriješen problem?
Standardni pristup je kvantizacija — umjesto 16-bitnih decimalnih brojeva, vrijednosti se pohranjuju u manji format. INT4 (4 bita) donosi prihvatljive gubitke, ali INT2 (2 bita) dosad je rezultirao dramatičnim padom točnosti. Istraživači su identificirali uzrok: neravnoteža normi tokena — određene dimenzije imaju outlier vrijednosti koje 2-bitni prikaz jednostavno ne može precizno pohraniti.
OScaR (Occam’s Razor) rješava to elegantnim dvostupanjskim pristupom: kanalirana rotacija normalizira distribuciju vrijednosti, a zatim Omni-Token Scaling skalira preostale varijacije po svakom tokenu. Rezultat je INT2 kvantizacija koja prema autorima postiže “gotovo bez gubitka” točnost na benchmarkovima.
Što konkretno donose brojke?
Uspoređeno s BF16 FlashDecoding-v2 (de facto standard za efikasan inference):
- 3,0× brži decoding — model odgovara tri puta brže
- 5,3× manja memorija — isti GPU može opsluživati bitno dulji kontekst ili više paralelnih zahtjeva
- 4,1× veći throughput — više korisnika na istom hardveru
Metoda radi na tekstualnim, multimodalnim i omni-modalnim modelima, kod je javno dostupan na GitHubu, a rad je predan na recenziju 19. svibnja 2026.
Praktični značaj za AI infrastrukturu
Za tvrtke koje pokreću LLM inference u oblaku, ovi brojevi direktno se prevode u troškove. Ako isti GPU može poslužiti 4× više zahtjeva uz istu latenciju, troškovi po upitu padaju za ~75%. OScaR, ako preživi peer review i pokaže iste rezultate na širem spektru modela, mogao bi postati standardni dio inference stacka uz FlashAttention i speculative decoding.
Česta pitanja
- Što je KV cache i zašto ga je teško komprimirati?
- KV cache (Key-Value cache) je privremena memorija u kojoj jezični model sprema međurezultate pažnje (attention) za već obrađene tokene. Bez njega, svaki novi token zahtijevao bi ponovni izračun za cijeli kontekst. Problem pri komprimiranju je 'neravnoteža normi tokena' — neke dimenzije imaju ekstremno visoke vrijednosti koje standardni kvantizacijski algoritmi ne mogu precizno uhvatiti u malom broju bita.
- Što točno znači INT2 kvantizacija?
- INT2 kvantizacija znači da se svaka vrijednost u KV cacheu sprema u samo 2 bita umjesto standardnih 16 ili 32 bita. To je 'ekstremna' kompresija — 8× do 16× manji zapis od uobičajenog BF16 formata. OScaR uz rotaciju i skaliranje tokena postiže da ta kompresija gotovo ne utječe na točnost modela.
- Radi li OScaR samo za tekstualne modele?
- Ne — OScaR je dizajniran za tekstualne, multimodalne i omni-modalne jezične modele, što ga čini primjenjivim na širi ekosustav modernih AI sustava koji kombiniraju tekst, slike i zvuk.