arXiv:2605.19762: ICML-2026-Paper behauptet, Code verbessert nicht das Mathe-Reasoning von LLMs
Ein bei ICML 2026 angenommener arXiv-Preprint zeigt durch kontrollierte Vortrainings-Experimente, dass ausführbarer Code allein die allgemeinen Reasoning-Fähigkeiten von LLMs nicht verbessert — Code stärkt das Programmieren stark, konkurriert aber im Standardmodus mit Mathematikaufgaben. Echter Fortschritt in der Mathematik entsteht durch domänenübergreifende strukturierte Reasoning-Traces (Code-Text und Math-Text-Mischungen), wie eine mechanistische Analyse von MoE-Modellen zeigt.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Der Preprint arXiv:2605.19762, angenommen bei ICML 2026, widerlegt mit kontrollierten Vortrainings-Experimenten eine weit verbreitete Annahme in der LLM-Gemeinschaft: dass das Hinzufügen von Code zu Trainingsdaten automatisch die allgemeinen Reasoning-Fähigkeiten eines Modells verbessert.
Was ist die Kernaussage?
Die Forscher trainierten mehrere Varianten desselben Modells mit kontrollierten Mischungen von Vortrainings-Daten — unterschiedlichen Anteilen von Code, reinem Text und strukturierten mathematischen Beweisen. Die Ergebnisse zeigen, dass reiner Code die Programmierung stark verbessert, nicht aber das allgemeine mathematische Reasoning. Darüber hinaus konkurrieren Code und Mathematik um dieselbe Kapazität im Standardmodus, sodass ein erhöhter Code-Anteil die Leistung bei schwierigen Mathematikaufgaben tatsächlich verringern kann.
Was zeigt die mechanistische Analyse von Mixture-of-Experts-Modellen?
Das Team verfolgte Routing-Aktivierungen in Mixture-of-Experts-Modellen (MoE) — welche Experten für welche Aufgabentypen aktiviert werden. In Modellen, die mit Standardmischungen trainiert wurden, zeigte sich eine negative Interaktion zwischen Coding- und Mathematik-Experten. Die Lösung kommt von domänenübergreifenden strukturierten Traces — Code-Text- und Math-Text-Mischungen — die synergistische Aktivierungsmuster statt kompetitiver Verteilung auslösen.
Praktische Implikationen für Vortrainings-Labs?
Die Empfehlung lautet, den Anteil strukturierter mathematischer Traces (reine Textbeweise, schrittweise Lösungen, Math-Text-Mischungen) im fixen Vortrainings-Budget zu erhöhen. Das Team berichtet von signifikanten Gewinnen auf schwierigen Mathe-Benchmarks bei gleichzeitig erhaltenen Programmierfähigkeiten. Dies ist relevant für Labs, die an neuen Generationen von Frontier-Modellen arbeiten — Anthropic, OpenAI, Google DeepMind, Meta, Mistral, DeepSeek, Qwen — und könnte die Vortrainings-Rezepte der nächsten Generation beeinflussen.
Häufig gestellte Fragen
- Was ist die Kernaussage des Papers?
- Das Paper behauptet, dass das bloße Hinzufügen von Code zum Vortraining die Programmierfähigkeit verbessert, nicht aber das allgemeine mathematische Reasoning. Echter Fortschritt in der Mathematik erfordert strukturierte Reasoning-Traces, die Code und Text bzw. Mathematik und Text kombinieren — domänenübergreifende Mischung, nicht reiner Code.
- Was zeigt die mechanistische Analyse?
- In Mixture-of-Experts-Modellen verfolgten die Forscher Routing-Aktivierungen — welche Experten für welche Aufgabentypen aktiviert werden. Es zeigte sich, dass Coding- und Mathematik-Experten teilweise um dieselbe Kapazität im Modell konkurrieren, was die negative Interaktion im Standardvortraining erklärt.
- Was ist die praktische Empfehlung?
- Das Team empfiehlt, den Anteil strukturierter mathematischer Traces (reine Textbeweise, schrittweise Lösungen) im fixen Vortrainings-Budget zu erhöhen. Das Ergebnis sind signifikante Gewinne auf schwierigen Mathe-Benchmarks bei gleichzeitig erhaltenen Programmierfähigkeiten.