vLLM-Omni に AutoRound モデル量子化が到来

vLLM は Intel の AutoRound 量子化を vLLM-Omni に統合し、マルチモーダルおよび拡散モデルの W4A16 圧縮を可能にした。結果として、チェックポイントは最大62%小さくなり、品質低下はごくわずかで、Intel XPU と NVIDIA グラフィックカード上での生成が高速になる。

大規模言語モデルを提供する最も広く使われているオープンソースエンジンの一つである vLLM プロジェクトは、Intel の AutoRound 量子化を、そのマルチモーダル系統である vLLM-Omni に統合すると発表した。狙いは、大型のマルチモーダルおよび拡散モデルを、目に見える品質低下なしに1枚のグラフィックカードに収まるほど小さくすることだ。

AutoRound は何をもたらすのか？

AutoRound は 学習後量子化（post-training quantization）の手法であり、すでに学習済みのモデルをより低いビット精度へ圧縮する処理だ。具体的には W4A16 モードを可能にし、モデルの重みをわずか4ビットで、活性化を16ビットで保持する。AutoRound はその際、テンソルごとに学習する3つのパラメータを通じて値の丸めと切り取りを同時に最適化し、量子化誤差を抑え込む。

モデルは実際どれだけ小さくなるのか？

最も印象的な例は Qwen3-Omni-30B-A3B モデルで、そのチェックポイントは 66 GB から25 GBへ と下がり、これは約 62% の削減に相当する。実用上の意味は数字以上に重要で、最低ハードウェア要件が4枚のグラフィックカードからわずか1枚へと下がる。これにより、控えめな機材しか持たない利用者にもマルチモーダルモデルが手の届くものになる。

品質は損なわれるのか、どれだけ速くなるのか？

品質低下は驚くほど小さいままだった。テキストからの画像生成では約 1.3% の偏差が記録されただけで、W4A16 版は OmniBench のベンチマークで BF16 の参照よりもわずかに良いほどだった。速度面では、CFG Parallel の並列化により、逐次的な BF16 ベースラインに対して 1.55 から1.67倍 速いガイド付き生成がもたらされる。対応範囲は Intel XPU（B60）と NVIDIA グラフィックカードに及ぶ。

よくある質問

W4A16 量子化とは何を意味しますか？

モデルの重みは4ビットで保存され、活性化は16ビットのまま残ります。これにより、計算中の精度を保ちつつモデルサイズを大幅に削減します。

モデルサイズはどれだけ小さくなりますか？

Qwen3-Omni-30B-A3B では、チェックポイントが66 GBから25 GBへと下がり、大型の Omni モデルでは最大62%の容量削減になります。

vLLM：AutoRound 量子化が vLLM-Omni に到来、マルチモーダルモデルを小型化

AutoRound は何をもたらすのか？

モデルは実際どれだけ小さくなるのか？

品質は損なわれるのか、どれだけ速くなるのか？

よくある質問

出典

関連ニュース