arXiv:2605.06638: ScaleLogic——RLの計算量は推論深度の冪乗則に従う
ScaleLogicは、long-horizon推論に必要なRL計算量が深度の冪乗則に従うことを示す合成フレームワークです:T ∝ D^γ(R² > 0.99)。指数γは論理の表現力に応じて1.04から2.60まで変化し、より表現力の高いトレーニングは下流ベンチマークで最大+10.66点の向上をもたらします。
この記事はAIにより一次情報源から生成されました。
Tianle Wang、Zhaoyang Wang、Guangchen Lanらは5月7日にarXivで、強化学習が大規模言語モデルのlong-horizon推論をどのように形成するかを系統的に明らかにする合成フレームワークScaleLogicの研究を発表しました。
ScaleLogicはどのように実験を制御するか?
ScaleLogicは論理推論タスクのジェネレーターで、2つの軸を独立して制御できます:推論深度(証明のステップ数)と論理の表現力(単純な含意、命題論理、合取・選言・否定・量化子を含む一階論理)。これはベンチマークでは希少です——ほとんどのベンチマークは両方の変数を同時に変更するため、結果が解釈しづらくなります。
軸を独立して制御することで、著者らはそれぞれが必要なRLトレーニング量に与える影響を分離しています。
主要な定量的発見は何か?
トレーニング計算量は推論深度の冪乗則に従います:
T ∝ D^γ、ここでR² > 0.99
指数γは論理の表現力と共に単調に増加し、最も単純なシステムの1.04から一階論理の2.60まで変化します。言い換えると、より表現力の高い論理においてタスクの長さが2倍になると、RL計算量は最大6倍必要になります——この関係は予測可能で、異なるRL手法間でも再現されます。
これはトレーニングの実践をどう変えるか?
最も実用的な発見:より表現力の高い合成設定でトレーニングされたモデルは、下流ベンチマークで10.66点を超える知識転移を達成し、総トレーニング量が同じであっても転移学習においてより高い効率を発揮します。カリキュラム学習——単純な論理から複雑な論理へのトレーニング——はスケーリング効率をさらに向上させます。
示唆は明確です:RLの合成データの質は生の計算量と同様に強力なレバーです。モデルが「何をトレーニングするか」は、「どれだけトレーニングするか」と同等に推論能力を形成します。
よくある質問
- ScaleLogicとは何ですか?
- ScaleLogicは、タスク深度(証明の長さ)と論理の表現力(単純な含意から量化子付き一階論理まで)を独立して制御できる論理推論のための合成環境です。
- 深度の冪乗則とはどういう意味ですか?
- T ∝ D^γは、必要なRL計算量TがタスクDepthDの累乗で増加することを意味します。指数γは最も単純なシステムの1.04から一階論理の2.60まで変化します——長いタスクは非線形に多くのリソースを要求します。
- なぜ論理の表現力が重要なのですか?
- より表現力の高い論理設定は、新しいタスクへの知識転移が優れたモデル(最大+10.66点向上)を生み出し、転移学習において計算量をより効率的に活用します。何をトレーニングするかは、どれだけトレーニングするかと同様に重要です。