🟢 🤖 Modeli ponedjeljak, 4. svibnja 2026. · 2 min čitanja ·

BWLA: 1-bitna kvantizacija LLM-ova s 3,26× ubrzanjem i 70% boljim rezultatima (ACL 2026)

Editorial illustration: BWLA: 1-bitna kvantizacija LLM-ova s 3,26× ubrzanjem i 70% boljim rezultatima (ACL 2026)

BWLA je novi okvir za post-trenažnu kvantizaciju velikih jezičnih modela koji prvi put postiže istovremenu 1-bitnu preciznost težina i nisko-bitne aktivacije bez značajnog gubitka točnosti. Na modelu Qwen3-32B postiže perpleksiju 11,92 i ubrzanje od 3,26× u odnosu na dosadašnje metode.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.

Istraživači Zhixiong Zhao, Zukang Xu i Dawei Yang predstavili su BWLA (Breaking the Barrier of W1AX), okvir za post-trenažnu kvantizaciju (smanjenje preciznosti težina modela nakon treniranja) koji po prvi put istovremeno postiže 1-bitne težine i nisko-bitne aktivacije — bez ozbiljnog pada točnosti. Rad je prihvaćen na ACL 2026 (glavna konferencija).

Zašto je 1-bitna kvantizacija bila toliko teška?

Dosadašnji pristupi binarizaciji LLM-ova (svođenja težina na vrijednosti 0 ili 1) posrtali su zbog tzv. teških repova aktivacija — ekstremnih vrijednosti koje se pojavljuju u međusljevima mreže i zahtijevaju visoku numeričku preciznost. Bez rješavanja tog problema, modeli bi gubili točnost čim bi se aktivacije komprimirale ispod 8 bita.

Kako BWLA to rješava?

BWLA uvodi dva nova mehanizma. Ortogonalno-Kroneckerova transformacija (OKT) uči ortogonalna preslikavanja kojima preoblikuje distribuciju težina i suzbija artefakte aktivacija, eliminiranjem potrebe za visokom preciznošću. Proksimalna SVD projekcija (PSP) zatim provodi dorade niskog ranga s minimalnim računalnim opterećenjem — sve bez ponovnog treniranja modela.

Što rezultati pokazuju?

Na modelu Qwen3-32B BWLA ostvaruje perpleksiju (mjera kvalitete jezičnog modela — niže je bolje) od 11,92, dok prethodno stanje tehnologije staje na 38. Zero-shot zadaci poboljšani su za više od 70%, a zaključivanje je ubrzano 3,26 puta. Autori tvrde da je ovo prvi post-trenažni okvir koji čini W1AX — 1-bitne težine uz X-bitne aktivacije — praktično primjenjivim bez kompromisa u točnosti.

Česta pitanja

Što je kvantizacija LLM-ova i zašto je važna?
Kvantizacija je tehnika smanjenja preciznosti težina modela (npr. s 32 bita na 1 bit) kako bi se smanjio memorijski otisak i ubrzalo izvođenje. Ključna je za pokretanje velikih modela na uređajima s ograničenim resursima.
Kako BWLA rješava problem 'teških repova' u aktivacijama?
BWLA koristi Ortogonalno-Kroneckerovu transformaciju (OKT) koja uči ortogonalna preslikavanja za preoblikovanje distribucije težina i suzbijanje artefakata aktivacija, čime eliminira potrebu za visokom preciznošću aktivacija.
Koliko je BWLA bolji od prethodnog stanja tehnologije?
Na modelu Qwen3-32B BWLA postiže perpleksiju 11,92 naspram 38 kod prethodnih metoda — poboljšanje od preko 70% na zero-shot zadacima uz 3,26× ubrzanje zaključivanja.