BWLA: 1-bitna kvantizacija LLM-ova s 3,26× ubrzanjem i 70% boljim rezultatima (ACL 2026)
BWLA je novi okvir za post-trenažnu kvantizaciju velikih jezičnih modela koji prvi put postiže istovremenu 1-bitnu preciznost težina i nisko-bitne aktivacije bez značajnog gubitka točnosti. Na modelu Qwen3-32B postiže perpleksiju 11,92 i ubrzanje od 3,26× u odnosu na dosadašnje metode.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Istraživači Zhixiong Zhao, Zukang Xu i Dawei Yang predstavili su BWLA (Breaking the Barrier of W1AX), okvir za post-trenažnu kvantizaciju (smanjenje preciznosti težina modela nakon treniranja) koji po prvi put istovremeno postiže 1-bitne težine i nisko-bitne aktivacije — bez ozbiljnog pada točnosti. Rad je prihvaćen na ACL 2026 (glavna konferencija).
Zašto je 1-bitna kvantizacija bila toliko teška?
Dosadašnji pristupi binarizaciji LLM-ova (svođenja težina na vrijednosti 0 ili 1) posrtali su zbog tzv. teških repova aktivacija — ekstremnih vrijednosti koje se pojavljuju u međusljevima mreže i zahtijevaju visoku numeričku preciznost. Bez rješavanja tog problema, modeli bi gubili točnost čim bi se aktivacije komprimirale ispod 8 bita.
Kako BWLA to rješava?
BWLA uvodi dva nova mehanizma. Ortogonalno-Kroneckerova transformacija (OKT) uči ortogonalna preslikavanja kojima preoblikuje distribuciju težina i suzbija artefakte aktivacija, eliminiranjem potrebe za visokom preciznošću. Proksimalna SVD projekcija (PSP) zatim provodi dorade niskog ranga s minimalnim računalnim opterećenjem — sve bez ponovnog treniranja modela.
Što rezultati pokazuju?
Na modelu Qwen3-32B BWLA ostvaruje perpleksiju (mjera kvalitete jezičnog modela — niže je bolje) od 11,92, dok prethodno stanje tehnologije staje na 38. Zero-shot zadaci poboljšani su za više od 70%, a zaključivanje je ubrzano 3,26 puta. Autori tvrde da je ovo prvi post-trenažni okvir koji čini W1AX — 1-bitne težine uz X-bitne aktivacije — praktično primjenjivim bez kompromisa u točnosti.
Česta pitanja
- Što je kvantizacija LLM-ova i zašto je važna?
- Kvantizacija je tehnika smanjenja preciznosti težina modela (npr. s 32 bita na 1 bit) kako bi se smanjio memorijski otisak i ubrzalo izvođenje. Ključna je za pokretanje velikih modela na uređajima s ograničenim resursima.
- Kako BWLA rješava problem 'teških repova' u aktivacijama?
- BWLA koristi Ortogonalno-Kroneckerovu transformaciju (OKT) koja uči ortogonalna preslikavanja za preoblikovanje distribucije težina i suzbijanje artefakata aktivacija, čime eliminira potrebu za visokom preciznošću aktivacija.
- Koliko je BWLA bolji od prethodnog stanja tehnologije?
- Na modelu Qwen3-32B BWLA postiže perpleksiju 11,92 naspram 38 kod prethodnih metoda — poboljšanje od preko 70% na zero-shot zadacima uz 3,26× ubrzanje zaključivanja.
Povezane vijesti
AdaMeZO: fino ugađanje LLM-ova Adam-stilom bez pohrane momenata u GPU memoriji
KellyBench: AI agenti upravljali kladioničarskim bankrollom u Premier Ligi — svi vodeći modeli izgubili novac
Latent-GRPO: stabilna RL optimizacija za latent reasoning — 7,86 boda na GSM8K-Aug i 4,27 boda na AIME uz 3-4× kraće reasoning chain-ove