BWLA：1位量化LLM框架，3.26倍加速（ACL 2026）

BWLA是一个新的大型语言模型训练后量化框架，首次在不显著损失精度的情况下同时实现1位权重精度和低位激活。在Qwen3-32B模型上实现困惑度11.92，与现有方法相比推理速度提升3.26倍。

研究人员Zhixiong Zhao、Zukang Xu和Dawei Yang提出了BWLA（Breaking the Barrier of W1AX），这是一个训练后量化框架，首次在不严重损失精度的情况下同时实现1位权重和低位激活。该论文被ACL 2026（主要会议）接受。

为什么1位量化如此困难？

此前的LLM二值化方法（将权重减少到0或1的值）因所谓的激活重尾而受阻——网络中间层出现的极端值，需要高数值精度。如果不解决这个问题，模型一旦将激活压缩到8位以下就会失去精度。

BWLA引入了两种新机制。**正交-Kronecker变换（OKT）**学习正交映射，重塑权重分布并消除激活伪影，无需高精度。**近端SVD投影（PSP）**然后以最小计算开销进行低秩改进——无需重新训练模型。

在Qwen3-32B模型上，BWLA实现的困惑度（语言模型质量测量——越低越好）为11.92，而以前的最先进技术停在38。零样本任务改善超过70%，推理速度提升3.26倍。作者声称这是第一个使W1AX——1位权重与X位激活——实际可行且不牺牲精度的训练后框架。

极低位量化使大型模型能够在消费级硬件上高效运行。如果Qwen3-32B这个规模的模型以1位精度实现了合理的困惑度，这意味着在不妥协推理质量的情况下显著降低运营成本。BWLA为边缘设备部署和降低推理基础设施成本开辟了新可能性。

常见问题

什么是LLM量化，为什么它很重要？

量化是一种降低模型权重精度的技术（例如从32位到1位），以减少内存占用和加快推理速度。对于在资源有限的设备上运行大型模型至关重要。

BWLA如何解决激活中的'重尾'问题？

BWLA使用正交-Kronecker变换（OKT），它学习正交映射来重塑权重分布并抑制激活伪影，从而消除了对高精度激活的需求。

BWLA比现有技术改进了多少？

在Qwen3-32B模型上，BWLA的困惑度为11.92，而先前方法为38——零样本任务改善超过70%，推理速度提升3.26倍。