arXiv SU-01: 30B-Modell + Gold-Medaille bei IMO/USAMO

SU-01 ist eine neue Reasoning-Training-Methodik, die am 14. Mai 2026 auf arXiv veröffentlicht wurde (Yafu Li und 27 Co-Autoren, Korrespondenzautor Runzhe Zhan). Ein 30B-Parameter-A3B-Backbone erreicht Gold-Medaillen-Performance bei der International Mathematical Olympiad 2025, USAMO 2026 und International Physics Olympiad 2024-2025 durch drei sequenzielle Phasen: Reverse-Perplexity-Curriculum-SFT auf 340.000 Trajektorien, zweistufiges RL und Test-Time-Scaling. Reasoning-Ketten erreichen über 100.000 Tokens.

Yafu Li (Korrespondenzautor Runzhe Zhan) und 27 Co-Autoren veröffentlichten am 14. Mai 2026 SU-01 — eine einheitliche Methodik zur Umwandlung von Reasoning-Backbones in Olympiade-Level-Solver. Das 30B-Parameter-A3B-Modell erreicht Gold-Medaillen-Niveau bei drei hochrangigen Wettbewerbs-Benchmarks: IMO 2025, USAMO 2026 und IPhO 2024-2025.

Wie groß ist das Modell und wie wird die Spitzenleistung gemessen?

SU-01 verwendet einen 30B-Parameter-A3B-Backbone — deutlich kleiner als viele Frontier-Modelle, die im gleichen Bereich konkurrieren. Das Erreichen einer Gold-Medaille bei der International Mathematical Olympiad 2025 und der USA Mathematical Olympiad 2026 legt nahe, dass die Trainingsmethodik für langfristiges mathematisches und physikalisches Schlussfolgern entscheidender ist als reines Parameter-Scaling. Reasoning-Ketten erreichen für einzelne Aufgaben über 100.000 Tokens — ein Indikator dafür, dass das Modell Antworten nicht errät, sondern detaillierte Beweispfade aufbaut.

Wie funktionieren die drei Trainingsphasen?

Phase 1: Reverse-Perplexity-Curriculum-SFT. Der Ansatz nutzt rund 340.000 Trajektorien (jede unter 8.000 Tokens) in der Supervised-Fine-Tuning-Phase. Reverse-Perplexity-Curriculum bedeutet, dass der Trainingsablauf von den wahrscheinlichsten Trajektorien (für das Modell einfacher) zu den unwahrscheinlichsten (am schwierigsten) übergeht — was Proof-Search- und Verifikationsverhalten schrittweise entwickelt.

Phase 2: Zweistufige RL-Pipeline. Das Reinforcement Learning durchläuft zwei Teilphasen: zunächst mit verifizierbaren Belohnungssignalen (klares Binär-Signal „richtig/falsch” für mathematische Antworten), dann mit Proof-Level-Optimierung (kontinuierliche Belohnung für Argumentationsqualität, nicht nur die finale Antwort).

Phase 3: Test-Time-Scaling. Inferenz-Techniken, die erweitertes Denken und paralleles Sampling für kompetitive Aufgabensets aktivieren — das Modell verwendet bei der Inferenz mehr Rechenkapazität für schwierigere Aufgaben.

Was bedeutet SU-01 für Reasoning-Modelle im Allgemeinen?

Die Arbeit positioniert die Methodik als übertragbares Rezept, das auf verschiedene Reasoning-Backbones angewendet werden kann. Wenn ein 30B-Modell mit SU-01-Training Gold-Medaillen-Niveau erreichen kann, deutet dies darauf hin, dass bestehende Open-Source-Modelle (Llama, Qwen, DeepSeek) durch die richtige Trainings-Pipeline ungenutzte Reasoning-Kapazitäten besitzen. Die Generalisierung über die Mathematik hinaus ist ebenfalls nachgewiesen — IPhO-Ergebnisse (Physik) zeigen einen Transfer über STEM-Domänen, nicht nur innerhalb der reinen Mathematik.

Der Ansatz baut auf der Welle der 2025-2026-Paper auf, die betonen, dass Trainingsdatenqualität und -methodik entscheidender sind als Scaling — komplementär zu arXiv:2605.10870 über Speicheroptimierung und arXiv:2605.11882 FATE-Safety-Alignment.

Häufig gestellte Fragen

Was ist die Architektur des SU-01-Modells?

SU-01 verwendet eine 30B-Parameter-A3B-Backbone-Architektur — kleiner als viele Frontier-Modelle, die im gleichen Bereich ähnliche Olympiade-Reasoning-Leistungen erzielen, was darauf hindeutet, dass die Trainingsmethodik für langfristiges mathematisch-physikalisches Schlussfolgern wichtiger ist als die Modellgröße.

Wie funktionieren die drei Trainingsphasen?

Phase 1 verwendet Reverse-Perplexity-Curriculum-SFT auf 340.000 Trajektorien (jede unter 8.000 Tokens) zur Entwicklung von Proof-Search- und Verifikationsverhalten; Phase 2 ist eine zweistufige RL-Pipeline von verifizierbaren Belohnungen bis zur Proof-Level-Optimierung; Phase 3 fügt Test-Time-Scaling-Techniken für kompetitive Aufgabensets hinzu.

arXiv:2605.13301 SU-01: 30B-Modell erreicht Gold-Medaillen-Niveau bei IMO 2025, USAMO 2026 und IPhO durch dreiphasiges Training

Wie groß ist das Modell und wie wird die Spitzenleistung gemessen?

Wie funktionieren die drei Trainingsphasen?

Was bedeutet SU-01 für Reasoning-Modelle im Allgemeinen?

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten