Cliff Tokens：为何一个词元会让LLM崩溃

Cliff词元是LLM输出中数学推理成功概率骤降的单个词元。研究人员开发了检测方法，并证明移除首个cliff词元可将准确率恢复至近乎完美的水平，而Cliff-DPO训练可提升+6.6个百分点。

什么是cliff词元？

Cliff词元——字面意思为「悬崖词元」——是语言模型思维链输出（模型用于解题的一系列中间步骤）中的单个词元，在此处成功得出正确答案的概率骤然下降。研究人员Jaeyong Ko、Pilsung Kang和Yukyung Lee通过统计分析识别出这些关键节点：使用双比例z检验，比较序列中每个词元前后的答案成功率。

为何一个词元如此关键？

研究涵盖7个模型和3个数学基准——GSM1K、MATH500和AIME 2025。结果令人惊讶：仅移除首个cliff词元并重新采样，即可将pass@64（64次尝试中正确答案的比例）从原始的0.71–1.00恢复至1.0，具体取决于模型。这一差距并不微小——它代表着从不确定推理区间过渡到完全可靠区间。

分类与应用

作者区分了三类cliff词元：确定性的（错误不可避免）、不确定性的（模型犹豫）和随机偏差的（采样错误）。关键发现：对不确定性和随机偏差cliff词元进行优化可改善推理，而确定性词元对训练无响应。基于此，研究人员开发了Cliff-DPO——一种偏好训练方法，在GSM8K数据集上实现了**+6.6个百分点的准确率提升**，在不改变模型架构的情况下取得了切实的改进。

常见问题

什么是cliff词元，为何重要？

Cliff词元是模型思维链输出中某个单一词元，在该词元处正确完成推理的概率骤然下降——如同悬崖边缘。识别这些节点揭示了数学推理失败的精确机制。

Cliff-DPO如何提升模型准确率？

Cliff-DPO是一种偏好优化方法，在含有和不含cliff词元的样本上训练模型；结果是在GSM8K数据集上准确率最高提升+6.6个百分点。

arXiv:2606.25524: Cliff Tokens——触发数学推理失败的单个词元

什么是cliff词元？

为何一个词元如此关键？

分类与应用

常见问题

来源

相关新闻