vLLM: AutoRound kvantizacija stiže u vLLM-Omni za manje multimodalne modele
vLLM je integrirao Intelovu AutoRound kvantizaciju u vLLM-Omni, omogućivši W4A16 kompresiju multimodalnih i difuzijskih modela. Rezultat je do 62 posto manji checkpoint, uz minimalan pad kvalitete i brže generiranje na Intel XPU i NVIDIA grafičkim karticama.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Projekt vLLM, jedan od najraširenijih open-source pogona za posluživanje velikih jezičnih modela, najavio je integraciju Intelove AutoRound kvantizacije u svoju multimodalnu granu vLLM-Omni. Cilj je velike multimodalne i difuzijske modele učiniti dovoljno malenima da stanu na jednu grafičku karticu, bez osjetnog gubitka kvalitete.
Što donosi AutoRound?
AutoRound je metoda kvantizacije nakon treniranja (post-training quantization) — postupak kojim se već istreniran model komprimira na manju bitnu preciznost. Konkretno omogućuje W4A16 način rada, gdje se težine modela čuvaju u samo 4 bita, a aktivacije u 16 bita. AutoRound pritom istovremeno optimizira zaokruživanje i odsijecanje vrijednosti kroz tri parametra koja uči po svakom tenzoru, čime drži pogreške kvantizacije pod kontrolom.
Koliko se modeli stvarno smanje?
Najupečatljiviji primjer je model Qwen3-Omni-30B-A3B, čiji checkpoint pada sa 66 GB na 25 GB — što odgovara smanjenju od oko 62 posto. Praktična posljedica je važnija od brojke: minimalni hardverski zahtjev pada s četiri grafičke kartice na samo jednu. Time multimodalni modeli postaju dostupni i korisnicima sa skromnijom opremom.
Trpi li kvaliteta i koliko je brže?
Pad kvalitete ostao je iznenađujuće malen. Kod generiranja slike iz teksta zabilježeno je tek oko 1,3 posto odstupanja, dok je W4A16 inačica na mjerilu OmniBench čak bila neznatno bolja od BF16 reference. Kod brzine, paralelizacija CFG Parallel donosi 1,55 do 1,67 puta brže vođeno generiranje u odnosu na sekvencijalnu BF16 osnovicu. Podrška obuhvaća Intel XPU (B60) i NVIDIA grafičke kartice.
Česta pitanja
- Što znači W4A16 kvantizacija?
- Težine modela pohranjuju se u 4 bita, dok aktivacije ostaju u 16 bita. Time se drastično smanjuje veličina modela uz zadržavanje preciznosti tijekom izračuna.
- Koliko se smanjuje veličina modela?
- Za Qwen3-Omni-30B-A3B checkpoint pada s 66 GB na 25 GB, što je do 62 posto manje prostora za velike Omni modele.
Izvori
Povezane vijesti
arXiv:2606.20517: Multi-LCB proširuje LiveCodeBench na 12 programskih jezika i otkriva Python overfitting kod 24 modela
UK AISI: Engineering Playbook otvara infrastrukturu za evaluaciju frontier modela u pet slojeva
Black Forest Labs: Robin Rombach poziva G7 lidere na podršku otvorenom razvoju AI-a