arXiv:2605.06638: ScaleLogic——RL 연산량은 추론 깊이의 거듭제곱 법칙을 따른다
ScaleLogic은 long-horizon 추론에 필요한 RL 연산량이 깊이의 거듭제곱 법칙을 따른다는 것을 보여주는 합성 프레임워크입니다: T ∝ D^γ (R² > 0.99). 지수 γ는 논리 표현력에 따라 1.04에서 2.60까지 변화하며, 더 표현력 있는 훈련은 다운스트림 벤치마크에서 최대 +10.66점의 향상을 가져옵니다.
이 기사는 AI가 1차 출처를 기반으로 생성했습니다.
Tianle Wang, Zhaoyang Wang, Guangchen Lan 및 공동 연구자들은 5월 7일 arXiv에서 강화학습이 대형 언어 모델의 long-horizon 추론을 어떻게 형성하는지 체계적으로 밝혀내는 합성 프레임워크 ScaleLogic 연구를 발표했습니다.
ScaleLogic은 어떻게 실험을 통제하는가?
ScaleLogic은 두 가지 축을 독립적으로 제어할 수 있는 논리 추론 작업 생성기입니다: 추론 깊이(증명의 단계 수)와 논리 표현력(단순 함의, 명제 논리, 결합·선언·부정 및 한정자가 있는 일차 논리). 이는 벤치마크에서 드문 특성입니다——대부분의 벤치마크는 두 변수를 동시에 변경하기 때문에 결과를 해석하기 어렵습니다.
축을 독립적으로 제어함으로써 저자들은 각각이 필요한 RL 훈련량에 미치는 영향을 분리했습니다.
주요 정량적 발견은 무엇인가?
훈련 연산량은 추론 깊이의 거듭제곱 법칙을 따릅니다:
T ∝ D^γ, R² > 0.99
지수 γ는 논리 표현력과 함께 단조 증가하며, 가장 단순한 시스템의 1.04에서 일차 논리의 2.60까지 변화합니다. 다시 말해, 더 표현력 있는 논리에서 작업 길이가 두 배가 되면 RL 연산량이 최대 6배 필요합니다——이 관계는 예측 가능하며 다양한 RL 방법에서 재현됩니다.
이것이 훈련 실무를 어떻게 바꾸는가?
가장 실용적인 발견: 더 표현력 있는 합성 설정에서 훈련된 모델은 다운스트림 벤치마크에서 10.66점을 초과하는 지식 전이를 달성하고 총 훈련량이 동일하더라도 전이 학습에서 더 높은 효율성을 보입니다. 커리큘럼 학습——단순한 논리에서 복잡한 논리로의 훈련——은 스케일링 효율성을 더욱 향상시킵니다.
시사점은 명확합니다: RL 합성 데이터의 품질은 원시 연산량과 마찬가지로 강력한 레버입니다. 모델이 「무엇을」 훈련하는지는 「얼마나」 훈련하는지만큼 추론 능력을 형성합니다.
자주 묻는 질문
- ScaleLogic이란 무엇입니까?
- ScaleLogic은 작업 깊이(증명 범위)와 논리 표현력(단순 함의에서 한정자가 있는 일차 논리까지)을 독립적으로 제어할 수 있는 논리 추론을 위한 합성 환경입니다.
- 깊이의 거듭제곱 법칙이 의미하는 것은 무엇입니까?
- T ∝ D^γ는 필요한 RL 연산량 T가 작업 깊이 D의 거듭제곱으로 증가한다는 의미입니다. 지수 γ는 가장 단순한 시스템의 1.04에서 일차 논리의 2.60까지 변화합니다——작업이 길수록 비선형적으로 더 많은 자원이 필요합니다.
- 논리 표현력이 왜 핵심입니까?
- 더 표현력 있는 논리 설정은 새로운 작업으로의 지식 전이가 더 우수한 모델(최대 +10.66점 향상)을 생성하고 전이 학습에서 연산량을 더 효율적으로 활용합니다. 무엇을 훈련하는지는 얼마나 훈련하는지만큼 중요합니다.