MathNet: 30.676 olimpijadnih zadataka iz 47 zemalja, SOTA modeli i dalje zaostaju
MIT tim je objavio MathNet, multimodalni benchmark s 30.676 olimpijadnih matematičkih zadataka iz 47 zemalja i 17 jezika. Gemini-3.1-Pro postiže 78,4%, GPT-5 69,3%, a embedding modeli imaju velike poteškoće s pronalaženjem matematički ekvivalentnih problema.