arXiv:2605.06638: ScaleLogic RL 추론 깊이 거듭제곱 법칙

ScaleLogic은 long-horizon 추론에 필요한 RL 연산량이 깊이의 거듭제곱 법칙을 따른다는 것을 보여주는 합성 프레임워크입니다: T ∝ D^γ (R² > 0.99). 지수 γ는 논리 표현력에 따라 1.04에서 2.60까지 변화하며, 더 표현력 있는 훈련은 다운스트림 벤치마크에서 최대 +10.66점의 향상을 가져옵니다.

Tianle Wang, Zhaoyang Wang, Guangchen Lan 및 공동 연구자들은 5월 7일 arXiv에서 강화학습이 대형 언어 모델의 long-horizon 추론을 어떻게 형성하는지 체계적으로 밝혀내는 합성 프레임워크 ScaleLogic 연구를 발표했습니다.

ScaleLogic은 어떻게 실험을 통제하는가?

ScaleLogic은 두 가지 축을 독립적으로 제어할 수 있는 논리 추론 작업 생성기입니다: 추론 깊이(증명의 단계 수)와 논리 표현력(단순 함의, 명제 논리, 결합·선언·부정 및 한정자가 있는 일차 논리). 이는 벤치마크에서 드문 특성입니다——대부분의 벤치마크는 두 변수를 동시에 변경하기 때문에 결과를 해석하기 어렵습니다.

축을 독립적으로 제어함으로써 저자들은 각각이 필요한 RL 훈련량에 미치는 영향을 분리했습니다.

주요 정량적 발견은 무엇인가?

훈련 연산량은 추론 깊이의 거듭제곱 법칙을 따릅니다:

T ∝ D^γ, R² > 0.99

지수 γ는 논리 표현력과 함께 단조 증가하며, 가장 단순한 시스템의 1.04에서 일차 논리의 2.60까지 변화합니다. 다시 말해, 더 표현력 있는 논리에서 작업 길이가 두 배가 되면 RL 연산량이 최대 6배 필요합니다——이 관계는 예측 가능하며 다양한 RL 방법에서 재현됩니다.

이것이 훈련 실무를 어떻게 바꾸는가?

가장 실용적인 발견: 더 표현력 있는 합성 설정에서 훈련된 모델은 다운스트림 벤치마크에서 10.66점을 초과하는 지식 전이를 달성하고 총 훈련량이 동일하더라도 전이 학습에서 더 높은 효율성을 보입니다. 커리큘럼 학습——단순한 논리에서 복잡한 논리로의 훈련——은 스케일링 효율성을 더욱 향상시킵니다.

시사점은 명확합니다: RL 합성 데이터의 품질은 원시 연산량과 마찬가지로 강력한 레버입니다. 모델이 「무엇을」 훈련하는지는 「얼마나」 훈련하는지만큼 추론 능력을 형성합니다.

자주 묻는 질문

ScaleLogic이란 무엇입니까?

ScaleLogic은 작업 깊이(증명 범위)와 논리 표현력(단순 함의에서 한정자가 있는 일차 논리까지)을 독립적으로 제어할 수 있는 논리 추론을 위한 합성 환경입니다.

깊이의 거듭제곱 법칙이 의미하는 것은 무엇입니까?

T ∝ D^γ는 필요한 RL 연산량 T가 작업 깊이 D의 거듭제곱으로 증가한다는 의미입니다. 지수 γ는 가장 단순한 시스템의 1.04에서 일차 논리의 2.60까지 변화합니다——작업이 길수록 비선형적으로 더 많은 자원이 필요합니다.

논리 표현력이 왜 핵심입니까?

더 표현력 있는 논리 설정은 새로운 작업으로의 지식 전이가 더 우수한 모델(최대 +10.66점 향상)을 생성하고 전이 학습에서 연산량을 더 효율적으로 활용합니다. 무엇을 훈련하는지는 얼마나 훈련하는지만큼 중요합니다.

arXiv:2605.06638: ScaleLogic——RL 연산량은 추론 깊이의 거듭제곱 법칙을 따른다

ScaleLogic은 어떻게 실험을 통제하는가?

주요 정량적 발견은 무엇인가?

이것이 훈련 실무를 어떻게 바꾸는가?

자주 묻는 질문

출처

관련 뉴스