vLLM:AutoRound 量化进入 vLLM-Omni,让多模态模型更小巧
vLLM 将英特尔的 AutoRound 量化集成进 vLLM-Omni,实现了多模态和扩散模型的 W4A16 压缩。其结果是检查点最多缩小 62%,质量损失极小,并在英特尔 XPU 和 NVIDIA 显卡上实现更快的生成。
本文由人工智能基于一手来源生成。
vLLM 项目作为最广泛使用的大型语言模型开源服务引擎之一,宣布将英特尔的 AutoRound 量化集成进其多模态分支 vLLM-Omni。其目标是让大型多模态和扩散模型小到足以装进单张显卡,且不会明显损失质量。
AutoRound 带来了什么?
AutoRound 是一种 训练后量化(post-training quantization)方法——即把已经训练好的模型压缩到更低比特精度的过程。具体而言,它实现了 W4A16 工作模式,其中模型权重仅以 4 比特存储,而激活值保留在 16 比特。AutoRound 同时通过每个张量学习的三个参数来优化数值的舍入和截断,从而将量化误差控制在范围之内。
模型实际能缩小多少?
最具代表性的例子是 Qwen3-Omni-30B-A3B 模型,其检查点从 66 GB 降至 25 GB——相当于缩小了约 62%。其实际意义比数字本身更重要:最低硬件需求从四张显卡降至仅一张。由此,多模态模型也能为配备较朴素设备的用户所用。
质量是否受损,速度快了多少?
质量损失出人意料地小。在文生图任务中仅记录到约 1.3% 的偏差,而 W4A16 版本在 OmniBench 基准上甚至略微优于 BF16 参照。在速度方面,CFG Parallel 并行化带来 1.55 至 1.67 倍 于顺序 BF16 基线的更快引导式生成。支持范围涵盖英特尔 XPU(B60)和 NVIDIA 显卡。
常见问题
- W4A16 量化是什么意思?
- 模型权重以 4 比特存储,而激活值保留在 16 比特。这在大幅减小模型体积的同时,保持了计算过程中的精度。
- 模型体积能缩小多少?
- 对于 Qwen3-Omni-30B-A3B,检查点从 66 GB 降至 25 GB,对于大型 Omni 模型而言最多可节省 62% 的空间。