vLLM-Omni 获得 AutoRound 模型量化技术

vLLM 将英特尔的 AutoRound 量化集成进 vLLM-Omni，实现了多模态和扩散模型的 W4A16 压缩。其结果是检查点最多缩小 62%，质量损失极小，并在英特尔 XPU 和 NVIDIA 显卡上实现更快的生成。

vLLM 项目作为最广泛使用的大型语言模型开源服务引擎之一，宣布将英特尔的 AutoRound 量化集成进其多模态分支 vLLM-Omni。其目标是让大型多模态和扩散模型小到足以装进单张显卡，且不会明显损失质量。

AutoRound 带来了什么？

AutoRound 是一种 训练后量化（post-training quantization）方法——即把已经训练好的模型压缩到更低比特精度的过程。具体而言，它实现了 W4A16 工作模式，其中模型权重仅以 4 比特存储，而激活值保留在 16 比特。AutoRound 同时通过每个张量学习的三个参数来优化数值的舍入和截断，从而将量化误差控制在范围之内。

模型实际能缩小多少？

最具代表性的例子是 Qwen3-Omni-30B-A3B 模型，其检查点从 66 GB 降至 25 GB——相当于缩小了约 62%。其实际意义比数字本身更重要：最低硬件需求从四张显卡降至仅一张。由此，多模态模型也能为配备较朴素设备的用户所用。

质量是否受损，速度快了多少？

质量损失出人意料地小。在文生图任务中仅记录到约 1.3% 的偏差，而 W4A16 版本在 OmniBench 基准上甚至略微优于 BF16 参照。在速度方面，CFG Parallel 并行化带来 1.55 至 1.67 倍 于顺序 BF16 基线的更快引导式生成。支持范围涵盖英特尔 XPU（B60）和 NVIDIA 显卡。

常见问题

W4A16 量化是什么意思？

模型权重以 4 比特存储，而激活值保留在 16 比特。这在大幅减小模型体积的同时，保持了计算过程中的精度。

模型体积能缩小多少？

对于 Qwen3-Omni-30B-A3B，检查点从 66 GB 降至 25 GB，对于大型 Omni 模型而言最多可节省 62% 的空间。

vLLM：AutoRound 量化进入 vLLM-Omni，让多模态模型更小巧

AutoRound 带来了什么？

模型实际能缩小多少？

质量是否受损，速度快了多少？

常见问题

来源

相关新闻