vLLM-Omni dobiva AutoRound kvantizaciju modela

vLLM je integrirao Intelovu AutoRound kvantizaciju u vLLM-Omni, omogućivši W4A16 kompresiju multimodalnih i difuzijskih modela. Rezultat je do 62 posto manji checkpoint, uz minimalan pad kvalitete i brže generiranje na Intel XPU i NVIDIA grafičkim karticama.

Projekt vLLM, jedan od najraširenijih open-source pogona za posluživanje velikih jezičnih modela, najavio je integraciju Intelove AutoRound kvantizacije u svoju multimodalnu granu vLLM-Omni. Cilj je velike multimodalne i difuzijske modele učiniti dovoljno malenima da stanu na jednu grafičku karticu, bez osjetnog gubitka kvalitete.

Što donosi AutoRound?

AutoRound je metoda kvantizacije nakon treniranja (post-training quantization) — postupak kojim se već istreniran model komprimira na manju bitnu preciznost. Konkretno omogućuje W4A16 način rada, gdje se težine modela čuvaju u samo 4 bita, a aktivacije u 16 bita. AutoRound pritom istovremeno optimizira zaokruživanje i odsijecanje vrijednosti kroz tri parametra koja uči po svakom tenzoru, čime drži pogreške kvantizacije pod kontrolom.

Koliko se modeli stvarno smanje?

Najupečatljiviji primjer je model Qwen3-Omni-30B-A3B, čiji checkpoint pada sa 66 GB na 25 GB — što odgovara smanjenju od oko 62 posto. Praktična posljedica je važnija od brojke: minimalni hardverski zahtjev pada s četiri grafičke kartice na samo jednu. Time multimodalni modeli postaju dostupni i korisnicima sa skromnijom opremom.

Trpi li kvaliteta i koliko je brže?

Pad kvalitete ostao je iznenađujuće malen. Kod generiranja slike iz teksta zabilježeno je tek oko 1,3 posto odstupanja, dok je W4A16 inačica na mjerilu OmniBench čak bila neznatno bolja od BF16 reference. Kod brzine, paralelizacija CFG Parallel donosi 1,55 do 1,67 puta brže vođeno generiranje u odnosu na sekvencijalnu BF16 osnovicu. Podrška obuhvaća Intel XPU (B60) i NVIDIA grafičke kartice.

Česta pitanja

Što znači W4A16 kvantizacija?

Težine modela pohranjuju se u 4 bita, dok aktivacije ostaju u 16 bita. Time se drastično smanjuje veličina modela uz zadržavanje preciznosti tijekom izračuna.

Koliko se smanjuje veličina modela?

Za Qwen3-Omni-30B-A3B checkpoint pada s 66 GB na 25 GB, što je do 62 posto manje prostora za velike Omni modele.

vLLM: AutoRound kvantizacija stiže u vLLM-Omni za manje multimodalne modele

Što donosi AutoRound?

Koliko se modeli stvarno smanje?

Trpi li kvaliteta i koliko je brže?

Česta pitanja

Izvori

Povezane vijesti