arXiv:2606.25524: Cliff Tokens——触发数学推理失败的单个词元
Cliff词元是LLM输出中数学推理成功概率骤降的单个词元。研究人员开发了检测方法,并证明移除首个cliff词元可将准确率恢复至近乎完美的水平,而Cliff-DPO训练可提升+6.6个百分点。
本文由人工智能基于一手来源生成。
什么是cliff词元?
Cliff词元——字面意思为「悬崖词元」——是语言模型思维链输出(模型用于解题的一系列中间步骤)中的单个词元,在此处成功得出正确答案的概率骤然下降。研究人员Jaeyong Ko、Pilsung Kang和Yukyung Lee通过统计分析识别出这些关键节点:使用双比例z检验,比较序列中每个词元前后的答案成功率。
为何一个词元如此关键?
研究涵盖7个模型和3个数学基准——GSM1K、MATH500和AIME 2025。结果令人惊讶:仅移除首个cliff词元并重新采样,即可将pass@64(64次尝试中正确答案的比例)从原始的0.71–1.00恢复至1.0,具体取决于模型。这一差距并不微小——它代表着从不确定推理区间过渡到完全可靠区间。
分类与应用
作者区分了三类cliff词元:确定性的(错误不可避免)、不确定性的(模型犹豫)和随机偏差的(采样错误)。关键发现:对不确定性和随机偏差cliff词元进行优化可改善推理,而确定性词元对训练无响应。基于此,研究人员开发了Cliff-DPO——一种偏好训练方法,在GSM8K数据集上实现了**+6.6个百分点的准确率提升**,在不改变模型架构的情况下取得了切实的改进。
常见问题
- 什么是cliff词元,为何重要?
- Cliff词元是模型思维链输出中某个单一词元,在该词元处正确完成推理的概率骤然下降——如同悬崖边缘。识别这些节点揭示了数学推理失败的精确机制。
- Cliff-DPO如何提升模型准确率?
- Cliff-DPO是一种偏好优化方法,在含有和不含cliff词元的样本上训练模型;结果是在GSM8K数据集上准确率最高提升+6.6个百分点。