Infrastruktura

Kvantizacija

Smanjenje numeričke preciznosti težina modela (npr. FP16 na INT8 ili INT4) radi manje veličine i brže inferencije uz minimalan gubitak točnosti.

Kvantizacija (quantization) je tehnika kompresije modela koja smanjuje numeričku preciznost težina i aktivacija — primjerice spremanje brojeva kao 8-bitnih ili 4-bitnih cijelih brojeva (INT8, INT4) umjesto 16- ili 32-bitnih decimalnih brojeva s pomičnim zarezom (FP16, FP32).

U praksi se svaki broj preslikava iz širokog kontinuiranog raspona u manji skup diskretnih vrijednosti pomoću faktora skaliranja. Time se veličina modela smanjuje 2 do 4 puta, smanjuje se zauzeće memorije i ubrzava inferencija, jer cjelobrojne operacije troše manje energije i propusnosti od decimalnih. Dvije su glavne metode: kvantizacija nakon treninga (PTQ), koja se primjenjuje na gotov model, i kvantizacija svjesna treninga (QAT), koja simulira gubitak preciznosti tijekom učenja za veću točnost.

Tijekom 2025.–2026. kvantizacija je ključ pokretanja velikih modela na skromnom hardveru. Formati poput GGUF (llama.cpp) te metode GPTQ i AWQ omogućuju da modeli s desecima milijardi parametara stanu na jedan potrošački GPU ili lokalni AI akcelerator, čime se demokratizira pristup otvorenim modelima.

Izvori

Vidi također