BWLA:1位量化LLM实现3.26倍加速和70%更好结果(ACL 2026)
BWLA是一个新的大型语言模型训练后量化框架,首次在不显著损失精度的情况下同时实现1位权重精度和低位激活。在Qwen3-32B模型上实现困惑度11.92,与现有方法相比推理速度提升3.26倍。
本文由人工智能基于一手来源生成。
研究人员Zhixiong Zhao、Zukang Xu和Dawei Yang提出了BWLA(Breaking the Barrier of W1AX),这是一个训练后量化框架,首次在不严重损失精度的情况下同时实现1位权重和低位激活。该论文被ACL 2026(主要会议)接受。
为什么1位量化如此困难?
此前的LLM二值化方法(将权重减少到0或1的值)因所谓的激活重尾而受阻——网络中间层出现的极端值,需要高数值精度。如果不解决这个问题,模型一旦将激活压缩到8位以下就会失去精度。
BWLA如何解决这个问题?
BWLA引入了两种新机制。**正交-Kronecker变换(OKT)**学习正交映射,重塑权重分布并消除激活伪影,无需高精度。**近端SVD投影(PSP)**然后以最小计算开销进行低秩改进——无需重新训练模型。
结果显示了什么?
在Qwen3-32B模型上,BWLA实现的困惑度(语言模型质量测量——越低越好)为11.92,而以前的最先进技术停在38。零样本任务改善超过70%,推理速度提升3.26倍。作者声称这是第一个使W1AX——1位权重与X位激活——实际可行且不牺牲精度的训练后框架。
1位量化有什么实际意义?
极低位量化使大型模型能够在消费级硬件上高效运行。如果Qwen3-32B这个规模的模型以1位精度实现了合理的困惑度,这意味着在不妥协推理质量的情况下显著降低运营成本。BWLA为边缘设备部署和降低推理基础设施成本开辟了新可能性。
常见问题
- 什么是LLM量化,为什么它很重要?
- 量化是一种降低模型权重精度的技术(例如从32位到1位),以减少内存占用和加快推理速度。对于在资源有限的设备上运行大型模型至关重要。
- BWLA如何解决激活中的'重尾'问题?
- BWLA使用正交-Kronecker变换(OKT),它学习正交映射来重塑权重分布并抑制激活伪影,从而消除了对高精度激活的需求。
- BWLA比现有技术改进了多少?
- 在Qwen3-32B模型上,BWLA的困惑度为11.92,而先前方法为38——零样本任务改善超过70%,推理速度提升3.26倍。