量化使推理词元膨胀

将语言模型量化为INT4/INT3可保持答案准确率，但会延长思维链并抵消预期的推理加速效果。微软研究人员引入了CoT Token Inflation Ratio指标，并在数学、代码、科学和智能体任务上进行了测试。

什么是量化，为何使用它？

量化——将模型权重的位精度从16位或32位降至INT4或INT3的过程——是加速大型语言模型推理和减少内存占用的标准技术。微软研究人员（7位作者，论文于2026年6月24日发布）揭示了这一技术存在一个迄今未被衡量的隐性代价。

INT4或INT3精度的量化保持了最终答案的准确率，但显著延长了推理链（思维链——模型在给出最终答案前生成的一系列中间步骤）。量化模型比其完整版本产生更多中间步骤和语义重复，从而使每个词元的速度提升被增加的词元生成数量完全抵消。

研究人员引入了CoT Token Inflation Ratio指标，用于衡量量化模型与原始模型之间思维链长度的比值。测试在四类任务上进行：数学推理、代码生成、科学问答和智能体工具调用任务。在所有类别中，量化均增加了推理词元的消耗。

在比较了三种缓解方法——提示策略、采样技术和量化感知训练——之后，作者得出结论：只有量化感知训练能同时减少准确率损失和词元膨胀。提示和采样缓解措施被证明不足。

实际影响：对量化推理模型的评估除准确率外必须展示推理词元消耗，因为这是两个独立的代价，共同决定实际效率。

常见问题

为何量化会延长思维链？

低位精度在模型权重中引入细微数值误差，导致模型生成更多中间步骤和语义重复以弥补不确定性——即便最终仍能得出正确答案。

如何减少量化模型的词元膨胀？

量化感知训练被证明最为有效：它在降低准确率损失和词元膨胀方面均优于提示策略和采样技术。