arXiv:2605.06638: ScaleLogic — RL-Potenzgesetz in der Schlusstiefe

ScaleLogic ist ein synthetisches Framework, das zeigt, dass der für Long-Horizon-Reasoning benötigte RL-Compute einem Potenzgesetz mit der Tiefe folgt: T ∝ D^γ (R² > 0,99). Der Exponent γ liegt je nach logischer Ausdrucksstärke zwischen 1,04 und 2,60, und ausdrucksstärkeres Training liefert bis zu +10,66 Punkte bessere Downstream-Ergebnisse.

Tianle Wang, Zhaoyang Wang, Guangchen Lan und Mitautoren veröffentlichten am 7. Mai auf arXiv die Studie ScaleLogic — ein synthetisches Framework, das systematisch aufzeigt, wie Reinforcement Learning das Long-Horizon-Reasoning großer Sprachmodelle formt.

Wie kontrolliert ScaleLogic das Experiment?

ScaleLogic ist ein Generator für logische Schlussfolgerungsaufgaben, der die unabhängige Steuerung zweier Achsen ermöglicht: Schlusstiefe (Anzahl der Schritte in einem Beweis) und logische Ausdrucksstärke (einfache Implikation, Aussagenlogik, Prädikatenlogik erster Stufe mit Konjunktion, Disjunktion, Negation und Quantoren). Das ist selten — die meisten Benchmarks verändern beide Variablen gleichzeitig und machen Befunde damit unlesbar.

Durch die getrennte Kontrolle der Achsen isolieren die Autoren den Einfluss jeder einzelnen auf die benötigte RL-Trainingsmenge.

Was ist der wichtigste quantitative Befund?

Der Trainings-Compute folgt einem Potenzgesetz in der Schlusstiefe:

T ∝ D^γ, wobei R² > 0,99

Der Exponent γ steigt monoton mit der logischen Ausdrucksstärke, von 1,04 für die einfachsten Systeme bis 2,60 für Prädikatenlogik erster Stufe. Konkret: Doppelt so tiefe Aufgaben in ausdrucksstarken Logiken erfordern bis zu 6-mal mehr RL-Compute — die Beziehung ist vorhersagbar und repliziert sich über verschiedene RL-Methoden.

Was ändert das in der Trainingspraxis?

Der praktischste Befund: Auf ausdrucksstärkeren synthetischen Settings trainierte Modelle übertragen Wissen um mehr als 10,66 Punkte besser auf Downstream-Benchmarks und erzielen höhere Transfer-Learning-Effizienz, selbst bei gleicher Gesamttrainingsmenge. Curriculum Learning — Training von einfachen zu komplexeren Logiken — verbessert die Skalierungseffizienz zusätzlich.

Die Implikation ist klar: Die Qualität synthetischer Daten für RL ist ein ebenso mächtiger Hebel wie roher Compute. Was ein Modell trainiert, prägt seine Schlussfähigkeit genauso wie der Umfang des Trainings.

Häufig gestellte Fragen

Was ist ScaleLogic?

ScaleLogic ist eine synthetische Umgebung für logisches Schlussfolgern, die eine unabhängige Steuerung von Aufgabentiefe (Beweishorizont) und logischer Ausdrucksstärke ermöglicht — von einfacher Implikation bis zur Prädikatenlogik erster Stufe mit Quantoren.

Was bedeutet das Potenzgesetz in der Tiefe?

T ∝ D^γ bedeutet, dass der benötigte RL-Compute T als Potenz der Aufgabentiefe D wächst. Der Exponent γ reicht von 1,04 (einfache Logik) bis 2,60 (ausdrucksstarke Logik) — längere Aufgaben erfordern nichtlinear mehr Ressourcen.

Warum ist logische Ausdrucksstärke entscheidend?

Ausdrucksstärkere logische Settings erzeugen Modelle, die Wissen besser auf neue Aufgaben übertragen (bis zu +10,66 Punkte) und Compute im Transfer-Learning effizienter nutzen. Was ein Modell trainiert, ist ebenso wichtig wie der Umfang des Trainings.

arXiv:2605.06638: ScaleLogic — RL-Compute folgt einem Potenzgesetz in der Schlusstiefe

Wie kontrolliert ScaleLogic das Experiment?

Was ist der wichtigste quantitative Befund?

Was ändert das in der Trainingspraxis?

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten