arXiv：CoDaPO——自适应 RL 优化

一篇新论文识别出 RL 训练推理模型中三种反复出现的动态，并提出 CoDaPO，一种根据置信度与难度对问题加权的方法。通过优先处理可学习的问题，该方法在 12 个基准上取得一致提升。

arXiv 于 2026 年 6 月 6 日发表了一篇论文（编号 arXiv:2606.07950，版本 v1，02:51 UTC），提出了 CoDaPO，一种用于训练推理模型的置信度/难度自适应策略优化方法。该论文从对 RL 训练（强化学习）中反复出现问题的分析出发。

RL 训练中会出现哪些动态？

作者识别出强化学习训练中三种反复出现的动态。第一种是 confidence inflation（置信度膨胀），即模型对自己的回答越来越有把握，而与实际准确率无关。

第二种是 advantage contraction（优势收缩），即各样本之间在效用上的差异缩小，从而妨碍学习。第三种是 hierarchical convergence（层级收敛），即模型分层收敛的模式。这三种动态共同解释了为什么标准 RL 训练会低效地消耗算力。

为应对这些问题，论文提出了 CoDaPO。该方法基于 rollout confidence（生成回答过程中的置信度）和单个问题的经验难度，为问题分配重要性。

在此评估的基础上，CoDaPO 接着对 policy update（策略更新步骤）重新加权（reweight）。这样训练就被引导向那些对学习贡献最大的样本，而不是把所有样本一视同仁。

核心思路是在固定的算力预算内优先处理”可学习的”问题。这类问题既不会过于简单，也不会无法求解，而恰恰是模型能从中学到最多的那些。

通过区分模型已经能可靠解决的问题与仍然具有挑战性的问题，CoDaPO 避免在无法带来进步的样本上浪费资源。这样，同样的算力预算就能被更有意义地使用。

根据论文，相比现有的 RL 方法，CoDaPO 在 12 个基准上取得一致提升。这是在广泛任务集上的稳定进步，而非在单个测试上的孤立结果。

该方法的目标是通过区分模型已能解决的问题与仍然困难的问题，实现更高效的算力分配。正是这种有针对性的资源分配，支撑了所记录到的提升。

这篇论文之所以有趣，是因为它把训练推理模型的问题视为注意力分配问题，而不仅仅是更大量资源的问题。CoDaPO 不是简单地增加算力，而是更聪明地引导算力。

由此为在有限预算条件下更高效地训练模型开辟了道路。对于使用固定资源的研究者而言，这样的自适应方法可能意味着在不增加成本的情况下获得更好的结果。

常见问题

论文识别出哪三种 RL 动态？

论文识别出 RL 训练中三种反复出现的动态：confidence inflation（置信度膨胀）、advantage contraction（优势收缩）和 hierarchical convergence（层级收敛）。这些动态描述了训练推理模型过程中反复出现的模式。

CoDaPO 如何为问题分配重要性？

CoDaPO 基于 rollout confidence（生成过程中的置信度）和经验难度为问题分配重要性，然后对 policy update 重新加权。其目标是在固定的算力预算内优先处理可学习的问题。

该方法带来多大的提升？

相比现有的 RL 方法，CoDaPO 在 12 个基准上取得一致提升。这些提升来自更高效的算力分配，它能区分模型已经能解决的问题与仍然具有挑战性的问题。