🟢 🤖 Modeli Objavljeno: · 2 min čitanja ·

arXiv:2605.19660: OScaR — INT2 kvantizacija KV cachea donosi 3× brži decoding

arXiv:2605.19660 ↗

Editorial illustration: Istraživači su objavili OScaR, metodu koja rješava temeljni problem kvantizacije KV cachea u velikim

Istraživači su objavili OScaR, metodu koja rješava temeljni problem kvantizacije KV cachea u velikim jezičnim modelima. Koristeći INT2 preciznost — svega 2 bita po vrijednosti — postiže gotovo bez gubitka točnosti, 3× brži decoding, 5,3× manje memorije i 4,1× veći throughput u usporedbi s BF16 FlashDecoding-v2.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.

Memorija je danas jedna od najvećih prepreka za pokretanje velikih jezičnih modela u produkciji. Svaki put kad model generira novi token, mora imati dostupan cijeli kontekst razgovora — a ta privremena memorija, poznata kao KV cache (Key-Value cache), raste linearno s duljinom konteksta i može zauzeti desecima gigabajta RAM-a na GPU-u.

Zašto je ekstremna kompresija KV cachea bila neriješen problem?

Standardni pristup je kvantizacija — umjesto 16-bitnih decimalnih brojeva, vrijednosti se pohranjuju u manji format. INT4 (4 bita) donosi prihvatljive gubitke, ali INT2 (2 bita) dosad je rezultirao dramatičnim padom točnosti. Istraživači su identificirali uzrok: neravnoteža normi tokena — određene dimenzije imaju outlier vrijednosti koje 2-bitni prikaz jednostavno ne može precizno pohraniti.

OScaR (Occam’s Razor) rješava to elegantnim dvostupanjskim pristupom: kanalirana rotacija normalizira distribuciju vrijednosti, a zatim Omni-Token Scaling skalira preostale varijacije po svakom tokenu. Rezultat je INT2 kvantizacija koja prema autorima postiže “gotovo bez gubitka” točnost na benchmarkovima.

Što konkretno donose brojke?

Uspoređeno s BF16 FlashDecoding-v2 (de facto standard za efikasan inference):

  • 3,0× brži decoding — model odgovara tri puta brže
  • 5,3× manja memorija — isti GPU može opsluživati bitno dulji kontekst ili više paralelnih zahtjeva
  • 4,1× veći throughput — više korisnika na istom hardveru

Metoda radi na tekstualnim, multimodalnim i omni-modalnim modelima, kod je javno dostupan na GitHubu, a rad je predan na recenziju 19. svibnja 2026.

Praktični značaj za AI infrastrukturu

Za tvrtke koje pokreću LLM inference u oblaku, ovi brojevi direktno se prevode u troškove. Ako isti GPU može poslužiti 4× više zahtjeva uz istu latenciju, troškovi po upitu padaju za ~75%. OScaR, ako preživi peer review i pokaže iste rezultate na širem spektru modela, mogao bi postati standardni dio inference stacka uz FlashAttention i speculative decoding.

Česta pitanja

Što je KV cache i zašto ga je teško komprimirati?
KV cache (Key-Value cache) je privremena memorija u kojoj jezični model sprema međurezultate pažnje (attention) za već obrađene tokene. Bez njega, svaki novi token zahtijevao bi ponovni izračun za cijeli kontekst. Problem pri komprimiranju je 'neravnoteža normi tokena' — neke dimenzije imaju ekstremno visoke vrijednosti koje standardni kvantizacijski algoritmi ne mogu precizno uhvatiti u malom broju bita.
Što točno znači INT2 kvantizacija?
INT2 kvantizacija znači da se svaka vrijednost u KV cacheu sprema u samo 2 bita umjesto standardnih 16 ili 32 bita. To je 'ekstremna' kompresija — 8× do 16× manji zapis od uobičajenog BF16 formata. OScaR uz rotaciju i skaliranje tokena postiže da ta kompresija gotovo ne utječe na točnost modela.
Radi li OScaR samo za tekstualne modele?
Ne — OScaR je dizajniran za tekstualne, multimodalne i omni-modalne jezične modele, što ga čini primjenjivim na širi ekosustav modernih AI sustava koji kombiniraju tekst, slike i zvuk.