🟢 🏥 实践应用 发布于: · 1 分钟阅读 ·

arXiv:2606.25524: Cliff Tokens——触发数学推理失败的单个词元

arXiv:2606.25524 ↗

编辑插图:抽象图表显示数学推理链中单个词元处的概率骤降

Cliff词元是LLM输出中数学推理成功概率骤降的单个词元。研究人员开发了检测方法,并证明移除首个cliff词元可将准确率恢复至近乎完美的水平,而Cliff-DPO训练可提升+6.6个百分点。

🤖

本文由人工智能基于一手来源生成。

什么是cliff词元?

Cliff词元——字面意思为「悬崖词元」——是语言模型思维链输出(模型用于解题的一系列中间步骤)中的单个词元,在此处成功得出正确答案的概率骤然下降。研究人员Jaeyong Ko、Pilsung Kang和Yukyung Lee通过统计分析识别出这些关键节点:使用双比例z检验,比较序列中每个词元前后的答案成功率。

为何一个词元如此关键?

研究涵盖7个模型和3个数学基准——GSM1K、MATH500和AIME 2025。结果令人惊讶:仅移除首个cliff词元并重新采样,即可将pass@64(64次尝试中正确答案的比例)从原始的0.71–1.00恢复至1.0,具体取决于模型。这一差距并不微小——它代表着从不确定推理区间过渡到完全可靠区间。

分类与应用

作者区分了三类cliff词元:确定性的(错误不可避免)、不确定性的(模型犹豫)和随机偏差的(采样错误)。关键发现:对不确定性和随机偏差cliff词元进行优化可改善推理,而确定性词元对训练无响应。基于此,研究人员开发了Cliff-DPO——一种偏好训练方法,在GSM8K数据集上实现了**+6.6个百分点的准确率提升**,在不改变模型架构的情况下取得了切实的改进。

常见问题

什么是cliff词元,为何重要?
Cliff词元是模型思维链输出中某个单一词元,在该词元处正确完成推理的概率骤然下降——如同悬崖边缘。识别这些节点揭示了数学推理失败的精确机制。
Cliff-DPO如何提升模型准确率?
Cliff-DPO是一种偏好优化方法,在含有和不含cliff词元的样本上训练模型;结果是在GSM8K数据集上准确率最高提升+6.6个百分点。