MathNet: 30.676 Olympiade-Aufgaben aus 47 Ländern, SOTA-Modelle liegen noch zurück
Ein MIT-Team veröffentlichte MathNet, einen multimodalen Benchmark mit 30.676 olympiadischen Mathematikaufgaben aus 47 Ländern und 17 Sprachen. Gemini-3.1-Pro erreicht 78,4%, GPT-5 69,3%, und Embedding-Modelle haben erhebliche Schwierigkeiten, mathematisch äquivalente Probleme zu finden.