arXiv:2605.06638: ScaleLogic — RL-Compute folgt einem Potenzgesetz in der Schlusstiefe
ScaleLogic ist ein synthetisches Framework, das zeigt, dass der für Long-Horizon-Reasoning benötigte RL-Compute einem Potenzgesetz mit der Tiefe folgt: T ∝ D^γ (R² > 0,99). Der Exponent γ liegt je nach logischer Ausdrucksstärke zwischen 1,04 und 2,60, und ausdrucksstärkeres Training liefert bis zu +10,66 Punkte bessere Downstream-Ergebnisse.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Tianle Wang, Zhaoyang Wang, Guangchen Lan und Mitautoren veröffentlichten am 7. Mai auf arXiv die Studie ScaleLogic — ein synthetisches Framework, das systematisch aufzeigt, wie Reinforcement Learning das Long-Horizon-Reasoning großer Sprachmodelle formt.
Wie kontrolliert ScaleLogic das Experiment?
ScaleLogic ist ein Generator für logische Schlussfolgerungsaufgaben, der die unabhängige Steuerung zweier Achsen ermöglicht: Schlusstiefe (Anzahl der Schritte in einem Beweis) und logische Ausdrucksstärke (einfache Implikation, Aussagenlogik, Prädikatenlogik erster Stufe mit Konjunktion, Disjunktion, Negation und Quantoren). Das ist selten — die meisten Benchmarks verändern beide Variablen gleichzeitig und machen Befunde damit unlesbar.
Durch die getrennte Kontrolle der Achsen isolieren die Autoren den Einfluss jeder einzelnen auf die benötigte RL-Trainingsmenge.
Was ist der wichtigste quantitative Befund?
Der Trainings-Compute folgt einem Potenzgesetz in der Schlusstiefe:
T ∝ D^γ, wobei R² > 0,99
Der Exponent γ steigt monoton mit der logischen Ausdrucksstärke, von 1,04 für die einfachsten Systeme bis 2,60 für Prädikatenlogik erster Stufe. Konkret: Doppelt so tiefe Aufgaben in ausdrucksstarken Logiken erfordern bis zu 6-mal mehr RL-Compute — die Beziehung ist vorhersagbar und repliziert sich über verschiedene RL-Methoden.
Was ändert das in der Trainingspraxis?
Der praktischste Befund: Auf ausdrucksstärkeren synthetischen Settings trainierte Modelle übertragen Wissen um mehr als 10,66 Punkte besser auf Downstream-Benchmarks und erzielen höhere Transfer-Learning-Effizienz, selbst bei gleicher Gesamttrainingsmenge. Curriculum Learning — Training von einfachen zu komplexeren Logiken — verbessert die Skalierungseffizienz zusätzlich.
Die Implikation ist klar: Die Qualität synthetischer Daten für RL ist ein ebenso mächtiger Hebel wie roher Compute. Was ein Modell trainiert, prägt seine Schlussfähigkeit genauso wie der Umfang des Trainings.
Häufig gestellte Fragen
- Was ist ScaleLogic?
- ScaleLogic ist eine synthetische Umgebung für logisches Schlussfolgern, die eine unabhängige Steuerung von Aufgabentiefe (Beweishorizont) und logischer Ausdrucksstärke ermöglicht — von einfacher Implikation bis zur Prädikatenlogik erster Stufe mit Quantoren.
- Was bedeutet das Potenzgesetz in der Tiefe?
- T ∝ D^γ bedeutet, dass der benötigte RL-Compute T als Potenz der Aufgabentiefe D wächst. Der Exponent γ reicht von 1,04 (einfache Logik) bis 2,60 (ausdrucksstarke Logik) — längere Aufgaben erfordern nichtlinear mehr Ressourcen.
- Warum ist logische Ausdrucksstärke entscheidend?
- Ausdrucksstärkere logische Settings erzeugen Modelle, die Wissen besser auf neue Aufgaben übertragen (bis zu +10,66 Punkte) und Compute im Transfer-Learning effizienter nutzen. Was ein Modell trainiert, ist ebenso wichtig wie der Umfang des Trainings.