ArXiv SUPERNOVA: Reinforcement Learning auf natürlichen Anweisungen verbessert Reasoning um 52,8 %

Bestehende Daten für besseres Reasoning nutzen

Forscher haben SUPERNOVA veröffentlicht — ein Framework, das zeigt, dass bestehende Instruction-Tuning-Datensätze „reichhaltige Reasoning-Muster” enthalten, die systematisch für Reinforcement Learning adaptiert werden können. Das Ergebnis: eine relative Verbesserung von bis zu 52,8 % auf dem BBEH-Benchmark im Vergleich zu starken Baselines wie Qwen3.5.

Warum ist das wichtig?

Derzeit gibt es zwei Ansätze zur Verbesserung des Reasonings in LLMs:

Synthetic data generation — neue Beispiele generieren und darauf trainieren (teuer)
Human-curated data — Experten schreiben neue Beispiele (teuer und langsam)

SUPERNOVA zeigt einen dritten Weg auf: Nutzen Sie die Daten, die Sie bereits haben (Instruction-Tuning-Sets), bereiten Sie sie jedoch systematisch für RL mit verifizierbaren Belohnungen vor. Dies ist deutlich günstiger und schneller.

Methodik

Die Autoren führten mehr als 100 kontrollierte Experimente durch und analysierten dabei drei Schlüsselfaktoren:

Source task selection — welche Aufgaben Wissen am besten auf die Zieldomäne übertragen
Task mixing strategies — optimale Kombinationen von Trainingsdaten
Synthetic interventions — gezielte Modifikationen zur Verbesserung der Datenqualität

Die zentrale Erkenntnis: Die Auswahl von Aufgaben nach individueller Zielperformance übertrifft Strategien, die mit Durchschnittswerten arbeiten. Mit anderen Worten: Verfolgen Sie keinen „ausgewogenen” Ansatz — wählen Sie Aufgaben, die Ihrem Ziel konkret dienen.

Performance

Die Tests wurden auf mehreren anspruchsvollen Benchmarks durchgeführt:

BBEH — komplexes mehrstufiges Reasoning
Zebralogic — logisches Schließen
MMLU-Pro — erweitertes Wissen über verschiedene Domänen hinweg

Code und Daten sind öffentlich auf GitHub verfügbar, was bedeutet, dass andere Forschungsgruppen die Ergebnisse reproduzieren und auf ihnen aufbauen können.

Weitreichende Implikationen

Der Trend „Bestehendes nutzen, nichts Neues schaffen” ist wichtig für die Demokratisierung der KI-Forschung. Sie benötigen kein Milliardenbudget wie OpenAI oder Anthropic — Sie können das Reasoning erheblich verbessern, indem Sie Datensätze verwenden, die bereits auf HuggingFace und anderen Plattformen existieren.

Für kleine KI-Labore und Open-Source-Projekte könnte der SUPERNOVA-Ansatz das sein, was sie näher an die Leistung von Frontier-Modellen heranführt.