arXiv:2606.25519: 量化使推理膨胀——低位模型的隐性代价
将语言模型量化为INT4/INT3可保持答案准确率,但会延长思维链并抵消预期的推理加速效果。微软研究人员引入了CoT Token Inflation Ratio指标,并在数学、代码、科学和智能体任务上进行了测试。
本文由人工智能基于一手来源生成。
什么是量化,为何使用它?
量化——将模型权重的位精度从16位或32位降至INT4或INT3的过程——是加速大型语言模型推理和减少内存占用的标准技术。微软研究人员(7位作者,论文于2026年6月24日发布)揭示了这一技术存在一个迄今未被衡量的隐性代价。
低位模型的真实代价是什么?
INT4或INT3精度的量化保持了最终答案的准确率,但显著延长了推理链(思维链——模型在给出最终答案前生成的一系列中间步骤)。量化模型比其完整版本产生更多中间步骤和语义重复,从而使每个词元的速度提升被增加的词元生成数量完全抵消。
新指标:CoT Token Inflation Ratio
研究人员引入了CoT Token Inflation Ratio指标,用于衡量量化模型与原始模型之间思维链长度的比值。测试在四类任务上进行:数学推理、代码生成、科学问答和智能体工具调用任务。在所有类别中,量化均增加了推理词元的消耗。
解决方案:训练,而非提示
在比较了三种缓解方法——提示策略、采样技术和量化感知训练——之后,作者得出结论:只有量化感知训练能同时减少准确率损失和词元膨胀。提示和采样缓解措施被证明不足。
实际影响:对量化推理模型的评估除准确率外必须展示推理词元消耗,因为这是两个独立的代价,共同决定实际效率。
常见问题
- 为何量化会延长思维链?
- 低位精度在模型权重中引入细微数值误差,导致模型生成更多中间步骤和语义重复以弥补不确定性——即便最终仍能得出正确答案。
- 如何减少量化模型的词元膨胀?
- 量化感知训练被证明最为有效:它在降低准确率损失和词元膨胀方面均优于提示策略和采样技术。