arXiv:2605.06638: ScaleLogic——RL算力遵循推理深度的幂律规律
ScaleLogic是一个合成框架,证明了long-horizon推理所需的RL算力遵循深度的幂律:T ∝ D^γ(R² > 0.99)。指数γ随逻辑表达能力从1.04变化到2.60,而更具表达力的训练带来下游结果最高+10.66分的提升。
本文由人工智能基于一手来源生成。
Tianle Wang、Zhaoyang Wang、Guangchen Lan及合作者于5月7日在arXiv发表了ScaleLogic研究——一个系统性揭示强化学习如何塑造大型语言模型long-horizon推理的合成框架。
ScaleLogic如何控制实验?
ScaleLogic是一个逻辑推理任务生成器,可以独立控制两个维度:推理深度(证明中的步骤数)和逻辑表达能力(简单蕴含、命题逻辑、带有合取、析取、否定和量词的一阶逻辑)。这在基准测试中实属罕见——大多数基准同时改变两个变量,导致结论难以解读。
通过对维度的独立控制,作者隔离了每个维度对所需RL训练量的影响。
主要量化发现是什么?
训练算力遵循推理深度的幂律:
T ∝ D^γ,其中R² > 0.99
指数γ随逻辑表达能力单调增长,从最简单系统的1.04到一阶逻辑的2.60。换言之,在更具表达力的逻辑中,任务长度翻倍将需要多达6倍的RL算力——这种关系具有可预测性,并在不同RL方法中得到复现。
这对训练实践有何改变?
最实用的发现:在更具表达力的合成设置上训练的模型在下游基准测试中知识迁移效果超出10.66分,并且即使总训练量相同,也能在迁移学习中实现更高效率。课程学习——从简单到复杂的逻辑进行训练——进一步提升了扩展效率。
这一结论明确:RL合成数据的质量是与原始算力同等强大的杠杆。模型「训练什么」与「训练多少」同等程度地塑造其推理能力。
常见问题
- 什么是ScaleLogic?
- ScaleLogic是一个用于逻辑推理的合成环境,可以独立控制任务深度(证明跨度)和逻辑表达能力(从简单蕴含到带有量词的一阶逻辑)。
- 深度幂律意味着什么?
- T ∝ D^γ意味着所需的RL算力T随任务深度D的幂次增长。指数γ从最简单系统的1.04到一阶逻辑的2.60——任务越长,所需资源呈非线性增长。
- 为什么逻辑表达能力是关键?
- 更具表达力的逻辑设置能产生更好地迁移到新任务(提升最高+10.66分)且在迁移学习中更高效利用算力的模型。训练内容与训练数量同等重要。