MathNet: 30.676 Olympiade-Aufgaben aus 47 Ländern, SOTA-Modelle liegen noch zurück
Warum es wichtig ist
Ein MIT-Team veröffentlichte MathNet, einen multimodalen Benchmark mit 30.676 olympiadischen Mathematikaufgaben aus 47 Ländern und 17 Sprachen. Gemini-3.1-Pro erreicht 78,4%, GPT-5 69,3%, und Embedding-Modelle haben erhebliche Schwierigkeiten, mathematisch äquivalente Probleme zu finden.
MathNet: 30.676 Olympiade-Aufgaben aus 47 Ländern, SOTA-Modelle liegen noch zurück
Ein MIT-Forschungsteam unter der Leitung von Shaden Alshammari veröffentlichte MathNet, den bisher größten multimodalen Benchmark für olympiadische Mathematikaufgaben. Die Arbeit wurde auf der ICLR 2026-Konferenz akzeptiert.
Was MathNet bietet
MathNet enthält 30.676 Aufgaben mit von Experten verfassten Lösungen, gesammelt aus zwei Jahrzehnten Mathematikolympiaden in 47 Ländern und 17 Sprachen. Der Datensatz ist multimodal, was bedeutet, dass er sowohl textliche Formulierungen als auch Diagramme, Grafiken und geometrische Skizzen enthält, die in der Olympiademathematik unvermeidlich sind. Der Benchmark misst drei verschiedene Aufgaben: Problemlösung, mathematische Retrieval-Genauigkeit und retrieval-gestütztes Problemlösen. Für die letzten beiden Aufgaben kuratierten die Forscher manuell Paare von Aufgaben, die mathematisch äquivalent, aber strukturell unterschiedlich formuliert sind.
Ergebnisse aktueller Modelle
SOTA-Modelle zeigen erhebliche Lücken. Gemini-3.1-Pro erreicht 78,4% Genauigkeit, während GPT-5 69,3% erreicht. Obwohl dies beeindruckende Zahlen für komplexe Olympiadeaufgaben sind, bestätigen die Ergebnisse, dass mathematisches Schlussfolgern auf höchstem Niveau noch nicht vollständig gelöst ist. Ein interessanter Befund ist, dass Embedding-Modelle — die Text in numerische Vektoren für die Ähnlichkeitssuche umwandeln — erhebliche Schwierigkeiten haben, mathematisch äquivalente Aufgaben zu finden, wenn sie mit unterschiedlichem Vokabular formuliert sind. Das ist entscheidend, weil retrieval-gestützte Ansätze von der Suchqualität abhängen.
Warum Retrieval-Qualität das Spiel verändert
Das Modell DeepSeek-V3.2-Speciale gewann bis zu 12 Prozentpunkte Verbesserung, wenn qualitativ hochwertige Retrieval-Ergebnisse verwandter Aufgaben bereitgestellt wurden. Dies deutet darauf hin, dass zukünftiger Fortschritt in der mathematischen KI nicht nur von größeren Modellen kommen wird, sondern auch von besseren Embedding-Architekturen, die spezifisch für mathematische Semantik sind. Klassische Text-Embeddings werden auf allgemeinen Korpora trainiert, wo zwei Aufgaben über Diophantische Gleichungen sehr unterschiedlich aussehen können, wenn sie verschiedene Notationen oder Sprachen verwenden. Die Notwendigkeit spezialisierter mathematischer Embeddings schafft Möglichkeiten für neue Forschungsrichtungen, und MathNet bietet einen standardisierten Satz von Paaren für deren Evaluierung. Der Datensatz und Benchmark sind unter mathnet.mit.edu unter einer Creative Commons BY 4.0-Lizenz öffentlich verfügbar. Die Autoren sind Kevin Wen, Abrar Zainal, Mark Hamilton, Navid Safaei, Sultan Albarakati, William T. Freeman und Antonio Torralba, und eine aktive Gemeinschaft rund um die Pflege und Erweiterung des Datensatzes wird erwartet.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Verwandte Nachrichten
OpenAI stellt GPT-5.5 vor: das intelligenteste Modell für Coding, Forschung und komplexe Datenanalyse durch Werkzeuge
Apple stellt MANZANO vor — ein einheitliches multimodales Modell, das Bildverstehen und Bildgenerierung ausbalanciert
Google gibt GA von gemini-embedding-2 bekannt: Erstes multimodales Embedding-Modell mit 5 Modalitäten in einem Raum