arXiv ist ein offenes Archiv wissenschaftlicher Preprints an der Cornell University. Arbeiten dort sind nicht immer begutachtet, aber viele enden auf Konferenzen.

Was ist ein multimodaler Benchmark?

Ein multimodaler Benchmark enthält mehrere Eingabetypen, meistens Text und Bild. Das ist für Mathematik wichtig, da olympiadische Aufgaben geometrische Diagramme und Grafiken beinhalten.

MathNet: 30.676 Olympiade-Aufgaben aus 47 Ländern, SOTA-Modelle liegen noch zurück

Ein MIT-Forschungsteam unter der Leitung von Shaden Alshammari veröffentlichte MathNet, den bisher größten multimodalen Benchmark für olympiadische Mathematikaufgaben. Die Arbeit wurde auf der ICLR 2026-Konferenz akzeptiert.

Was MathNet bietet

MathNet enthält 30.676 Aufgaben mit von Experten verfassten Lösungen, gesammelt aus zwei Jahrzehnten Mathematikolympiaden in 47 Ländern und 17 Sprachen. Der Datensatz ist multimodal, was bedeutet, dass er sowohl textliche Formulierungen als auch Diagramme, Grafiken und geometrische Skizzen enthält, die in der Olympiademathematik unvermeidlich sind. Der Benchmark misst drei verschiedene Aufgaben: Problemlösung, mathematische Retrieval-Genauigkeit und retrieval-gestütztes Problemlösen. Für die letzten beiden Aufgaben kuratierten die Forscher manuell Paare von Aufgaben, die mathematisch äquivalent, aber strukturell unterschiedlich formuliert sind.

Ergebnisse aktueller Modelle

SOTA-Modelle zeigen erhebliche Lücken. Gemini-3.1-Pro erreicht 78,4% Genauigkeit, während GPT-5 69,3% erreicht. Obwohl dies beeindruckende Zahlen für komplexe Olympiadeaufgaben sind, bestätigen die Ergebnisse, dass mathematisches Schlussfolgern auf höchstem Niveau noch nicht vollständig gelöst ist. Ein interessanter Befund ist, dass Embedding-Modelle — die Text in numerische Vektoren für die Ähnlichkeitssuche umwandeln — erhebliche Schwierigkeiten haben, mathematisch äquivalente Aufgaben zu finden, wenn sie mit unterschiedlichem Vokabular formuliert sind. Das ist entscheidend, weil retrieval-gestützte Ansätze von der Suchqualität abhängen.

Warum Retrieval-Qualität das Spiel verändert

Das Modell DeepSeek-V3.2-Speciale gewann bis zu 12 Prozentpunkte Verbesserung, wenn qualitativ hochwertige Retrieval-Ergebnisse verwandter Aufgaben bereitgestellt wurden. Dies deutet darauf hin, dass zukünftiger Fortschritt in der mathematischen KI nicht nur von größeren Modellen kommen wird, sondern auch von besseren Embedding-Architekturen, die spezifisch für mathematische Semantik sind. Klassische Text-Embeddings werden auf allgemeinen Korpora trainiert, wo zwei Aufgaben über Diophantische Gleichungen sehr unterschiedlich aussehen können, wenn sie verschiedene Notationen oder Sprachen verwenden. Die Notwendigkeit spezialisierter mathematischer Embeddings schafft Möglichkeiten für neue Forschungsrichtungen, und MathNet bietet einen standardisierten Satz von Paaren für deren Evaluierung. Der Datensatz und Benchmark sind unter mathnet.mit.edu unter einer Creative Commons BY 4.0-Lizenz öffentlich verfügbar. Die Autoren sind Kevin Wen, Abrar Zainal, Mark Hamilton, Navid Safaei, Sultan Albarakati, William T. Freeman und Antonio Torralba, und eine aktive Gemeinschaft rund um die Pflege und Erweiterung des Datensatzes wird erwartet.

MathNet: 30.676 Olympiade-Aufgaben aus 47 Ländern, SOTA-Modelle liegen noch zurück

MathNet: 30.676 Olympiade-Aufgaben aus 47 Ländern, SOTA-Modelle liegen noch zurück

Was MathNet bietet

Ergebnisse aktueller Modelle

Warum Retrieval-Qualität das Spiel verändert

Quellen

Verwandte Nachrichten