vLLM:AutoRound 量子化が vLLM-Omni に到来、マルチモーダルモデルを小型化
vLLM は Intel の AutoRound 量子化を vLLM-Omni に統合し、マルチモーダルおよび拡散モデルの W4A16 圧縮を可能にした。結果として、チェックポイントは最大62%小さくなり、品質低下はごくわずかで、Intel XPU と NVIDIA グラフィックカード上での生成が高速になる。
この記事はAIにより一次情報源から生成されました。
大規模言語モデルを提供する最も広く使われているオープンソースエンジンの一つである vLLM プロジェクトは、Intel の AutoRound 量子化を、そのマルチモーダル系統である vLLM-Omni に統合すると発表した。狙いは、大型のマルチモーダルおよび拡散モデルを、目に見える品質低下なしに1枚のグラフィックカードに収まるほど小さくすることだ。
AutoRound は何をもたらすのか?
AutoRound は 学習後量子化(post-training quantization)の手法であり、すでに学習済みのモデルをより低いビット精度へ圧縮する処理だ。具体的には W4A16 モードを可能にし、モデルの重みをわずか4ビットで、活性化を16ビットで保持する。AutoRound はその際、テンソルごとに学習する3つのパラメータを通じて値の丸めと切り取りを同時に最適化し、量子化誤差を抑え込む。
モデルは実際どれだけ小さくなるのか?
最も印象的な例は Qwen3-Omni-30B-A3B モデルで、そのチェックポイントは 66 GB から25 GBへ と下がり、これは約 62% の削減に相当する。実用上の意味は数字以上に重要で、最低ハードウェア要件が4枚のグラフィックカードからわずか1枚へと下がる。これにより、控えめな機材しか持たない利用者にもマルチモーダルモデルが手の届くものになる。
品質は損なわれるのか、どれだけ速くなるのか?
品質低下は驚くほど小さいままだった。テキストからの画像生成では約 1.3% の偏差が記録されただけで、W4A16 版は OmniBench のベンチマークで BF16 の参照よりもわずかに良いほどだった。速度面では、CFG Parallel の並列化により、逐次的な BF16 ベースラインに対して 1.55 から1.67倍 速いガイド付き生成がもたらされる。対応範囲は Intel XPU(B60)と NVIDIA グラフィックカードに及ぶ。
よくある質問
- W4A16 量子化とは何を意味しますか?
- モデルの重みは4ビットで保存され、活性化は16ビットのまま残ります。これにより、計算中の精度を保ちつつモデルサイズを大幅に削減します。
- モデルサイズはどれだけ小さくなりますか?
- Qwen3-Omni-30B-A3B では、チェックポイントが66 GBから25 GBへと下がり、大型の Omni モデルでは最大62%の容量削減になります。