Kvantizacija napuhuje reasoning tokene

Kvantizacija jezičnih modela na INT4/INT3 čuva točnost odgovora, ali produljuje lanac razmišljanja i poništava očekivano ubrzanje inferencije. Microsoftovi istraživači uveli su metriku CoT Token Inflation Ratio i testirali je na matematici, kodu, znanosti i agentic zadacima.

Što je kvantizacija i zašto se koristi?

Kvantizacija — proces smanjenja bitne preciznosti težina modela s 16 ili 32 bita na INT4 ili INT3 — standardna je tehnika za ubrzanje inferencije i smanjenje memorijskog otiska velikih jezičnih modela. Microsoftovi istraživači (7 autora, rad objavljen 24. lipnja 2026.) otkrivaju da ta tehnika nosi skriveni trošak koji dosadašnje evaluacije nisu mjerile.

Koliki je stvarni trošak niskobitnih modela?

Kvantizacija na INT4 ili INT3 preciznost čuva točnost konačnog odgovora, ali uzrokuje značajno produljenje lanca razmišljanja (chain-of-thought — niz međukoraka koje model generira prije završnog odgovora). Kvantizrani modeli produciraju više međukoraka i semantičkih ponavljanja nego njihovi puni ekvivalenti, čime se ubrzanje po tokenu u potpunosti poništava povećanim brojem generiranih tokena.

Nova metrika: CoT Token Inflation Ratio

Istraživači su uveli metriku CoT Token Inflation Ratio koja mjeri omjer duljine chain-of-thought između kvantiziranog i originalnog modela. Testiranje je provedeno na četiri kategorije zadataka: matematičko zaključivanje, generiranje koda, znanstveni Q&A i agentic tool-use (zadaci s pozivanjem alata). U svim kategorijama kvantizacija povećava potrošnju tokena za zaključivanje.

Rješenje: training, ne prompting

Uspoređujući tri pristupa ublažavanju — prompting strategije, tehnike uzorkovanja i quantization-aware training — autori zaključuju da jedino training koji je svjestan kvantizacije istovremeno smanjuje i gubitak točnosti i inflaciju tokena. Prompting i sampling mitigacije pokazale su se nedovoljnima.

Praktična implikacija: evaluacije kvantiziranih reasoning modela moraju uz točnost prikazivati i potrošnju tokena pri zaključivanju, jer su to dva odvojena troška koji zajedno određuju stvarnu efikasnost.

Česta pitanja

Zašto kvantizacija produljuje lanac razmišljanja?

Niskobitna preciznost unosi male numeričke pogreške u težine modela, zbog čega model generira više međukoraka i semantičkih ponavljanja kako bi kompenzirao nesigurnost — čak i kad na kraju dođe do točnog odgovora.

Kako se može smanjiti napuhavanje tokena kod kvantiziranih modela?

Quantization-aware training pokazao se najučinkovitijim: nadmašuje i prompting strategije i tehnike uzorkovanja u smanjenju i gubitka točnosti i inflacije tokena.

arXiv:2606.25519: Kvantizacija napuhuje zaključivanje — skriveni trošak niskobitnih modela

Što je kvantizacija i zašto se koristi?

Koliki je stvarni trošak niskobitnih modela?

Nova metrika: CoT Token Inflation Ratio

Rješenje: training, ne prompting

Česta pitanja

Izvori

Povezane vijesti