arXiv:2605.13301 SU-01: 30B-Modell erreicht Gold-Medaillen-Niveau bei IMO 2025, USAMO 2026 und IPhO durch dreiphasiges Training
SU-01 ist eine neue Reasoning-Training-Methodik, die am 14. Mai 2026 auf arXiv veröffentlicht wurde (Yafu Li und 27 Co-Autoren, Korrespondenzautor Runzhe Zhan). Ein 30B-Parameter-A3B-Backbone erreicht Gold-Medaillen-Performance bei der International Mathematical Olympiad 2025, USAMO 2026 und International Physics Olympiad 2024-2025 durch drei sequenzielle Phasen: Reverse-Perplexity-Curriculum-SFT auf 340.000 Trajektorien, zweistufiges RL und Test-Time-Scaling. Reasoning-Ketten erreichen über 100.000 Tokens.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Yafu Li (Korrespondenzautor Runzhe Zhan) und 27 Co-Autoren veröffentlichten am 14. Mai 2026 SU-01 — eine einheitliche Methodik zur Umwandlung von Reasoning-Backbones in Olympiade-Level-Solver. Das 30B-Parameter-A3B-Modell erreicht Gold-Medaillen-Niveau bei drei hochrangigen Wettbewerbs-Benchmarks: IMO 2025, USAMO 2026 und IPhO 2024-2025.
Wie groß ist das Modell und wie wird die Spitzenleistung gemessen?
SU-01 verwendet einen 30B-Parameter-A3B-Backbone — deutlich kleiner als viele Frontier-Modelle, die im gleichen Bereich konkurrieren. Das Erreichen einer Gold-Medaille bei der International Mathematical Olympiad 2025 und der USA Mathematical Olympiad 2026 legt nahe, dass die Trainingsmethodik für langfristiges mathematisches und physikalisches Schlussfolgern entscheidender ist als reines Parameter-Scaling. Reasoning-Ketten erreichen für einzelne Aufgaben über 100.000 Tokens — ein Indikator dafür, dass das Modell Antworten nicht errät, sondern detaillierte Beweispfade aufbaut.
Wie funktionieren die drei Trainingsphasen?
Phase 1: Reverse-Perplexity-Curriculum-SFT. Der Ansatz nutzt rund 340.000 Trajektorien (jede unter 8.000 Tokens) in der Supervised-Fine-Tuning-Phase. Reverse-Perplexity-Curriculum bedeutet, dass der Trainingsablauf von den wahrscheinlichsten Trajektorien (für das Modell einfacher) zu den unwahrscheinlichsten (am schwierigsten) übergeht — was Proof-Search- und Verifikationsverhalten schrittweise entwickelt.
Phase 2: Zweistufige RL-Pipeline. Das Reinforcement Learning durchläuft zwei Teilphasen: zunächst mit verifizierbaren Belohnungssignalen (klares Binär-Signal „richtig/falsch” für mathematische Antworten), dann mit Proof-Level-Optimierung (kontinuierliche Belohnung für Argumentationsqualität, nicht nur die finale Antwort).
Phase 3: Test-Time-Scaling. Inferenz-Techniken, die erweitertes Denken und paralleles Sampling für kompetitive Aufgabensets aktivieren — das Modell verwendet bei der Inferenz mehr Rechenkapazität für schwierigere Aufgaben.
Was bedeutet SU-01 für Reasoning-Modelle im Allgemeinen?
Die Arbeit positioniert die Methodik als übertragbares Rezept, das auf verschiedene Reasoning-Backbones angewendet werden kann. Wenn ein 30B-Modell mit SU-01-Training Gold-Medaillen-Niveau erreichen kann, deutet dies darauf hin, dass bestehende Open-Source-Modelle (Llama, Qwen, DeepSeek) durch die richtige Trainings-Pipeline ungenutzte Reasoning-Kapazitäten besitzen. Die Generalisierung über die Mathematik hinaus ist ebenfalls nachgewiesen — IPhO-Ergebnisse (Physik) zeigen einen Transfer über STEM-Domänen, nicht nur innerhalb der reinen Mathematik.
Der Ansatz baut auf der Welle der 2025-2026-Paper auf, die betonen, dass Trainingsdatenqualität und -methodik entscheidender sind als Scaling — komplementär zu arXiv:2605.10870 über Speicheroptimierung und arXiv:2605.11882 FATE-Safety-Alignment.
Häufig gestellte Fragen
- Was ist die Architektur des SU-01-Modells?
- SU-01 verwendet eine 30B-Parameter-A3B-Backbone-Architektur — kleiner als viele Frontier-Modelle, die im gleichen Bereich ähnliche Olympiade-Reasoning-Leistungen erzielen, was darauf hindeutet, dass die Trainingsmethodik für langfristiges mathematisch-physikalisches Schlussfolgern wichtiger ist als die Modellgröße.
- Wie funktionieren die drei Trainingsphasen?
- Phase 1 verwendet Reverse-Perplexity-Curriculum-SFT auf 340.000 Trajektorien (jede unter 8.000 Tokens) zur Entwicklung von Proof-Search- und Verifikationsverhalten; Phase 2 ist eine zweistufige RL-Pipeline von verifizierbaren Belohnungen bis zur Proof-Level-Optimierung; Phase 3 fügt Test-Time-Scaling-Techniken für kompetitive Aufgabensets hinzu.
Verwandte Nachrichten
arXiv:2605.21006: Off-the-shelf-Persona-Vektoren erreichen 68-98 % der Wirksamkeit von gezieltem Sycophancy-Steering in LLM-Modellen
Black Forest Labs: FLUX Erase übertrifft GPT Image-2 (68,5 %) und Finegrain (63,2 %) bei der promptlosen Objektentfernung
arXiv:2605.19762: ICML-2026-Paper behauptet, Code verbessert nicht das Mathe-Reasoning von LLMs