MathNet: 30.676 olimpijadnih zadataka iz 47 zemalja, SOTA modeli i dalje zaostaju
MIT tim je objavio MathNet, multimodalni benchmark s 30.676 olimpijadnih matematičkih zadataka iz 47 zemalja i 17 jezika. Gemini-3.1-Pro postiže 78,4%, GPT-5 69,3%, a embedding modeli imaju velike poteškoće s pronalaženjem matematički ekvivalentnih problema.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Tim MIT istraživača predvođen Shaden Alshammari objavio je MathNet, dosad najveći multimodalni benchmark olimpijadnih matematičkih zadataka. Rad je prihvaćen na konferenciju ICLR 2026.
Što MathNet donosi
MathNet sadrži 30.676 zadataka s pratećim rješenjima koje su pisali stručnjaci, a sakupljeni su iz dva desetljeća matematičkih olimpijada u 47 zemalja i 17 jezika. Dataset je multimodalan, što znači da uključuje i tekstualne formulacije i dijagrame, grafikone i geometrijske skice koji su neizbježni u olimpijadnoj matematici. Benchmark mjeri tri različita zadatka: rješavanje problema, točnost matematičkog retrieval-a i retrieval-augmented problem-solving. Za posljednja dva istraživači su ručno kurirali parove zadataka koji su matematički ekvivalentni ali strukturno različito formulirani.
Rezultati trenutnih modela
SOTA modeli pokazuju značajne praznine. Gemini-3.1-Pro postiže 78,4% točnosti, dok GPT-5 doseže 69,3%. Iako su ovo impresivni brojevi za kompleksne olimpijadne zadatke, rezultati potvrđuju da matematičko rezoniranje najviše razine i dalje nije u potpunosti riješeno. Zanimljivo otkriće je da embedding modeli, koji pretvaraju tekst u numeričke vektore za pretragu sličnosti, imaju velikih poteškoća s pronalaženjem matematički ekvivalentnih problema kad su oni formulirani različitim rječnikom. To je ključno jer retrieval-augmented pristupi ovise o kvaliteti pretrage.
Zašto retrieval kvaliteta mijenja igru
Model DeepSeek-V3.2-Speciale dobio je do 12 postotnih bodova poboljšanja kad mu se dostavila kvalitetna pretraga srodnih zadataka. To sugerira da budući napredak u matematičkom AI-u neće doći samo od većih modela, nego i od boljih embedding arhitektura specifičnih za matematičku semantiku. Klasični tekstualni embeddingi treniraju se na općenitim korpusima gdje dva zadatka o Diofantovim jednadžbama mogu izgledati vrlo različito ako koriste drugačije notacije ili jezike. Potreba za specijaliziranim matematičkim embeddingom stvara priliku za nove istraživačke pravce, a MathNet osigurava standardiziran skup parova za njihovu evaluaciju. Dataset i benchmark javno su dostupni na mathnet.mit.edu pod Creative Commons BY 4.0 licencom. Autori su ujedno Kevin Wen, Abrar Zainal, Mark Hamilton, Navid Safaei, Sultan Albarakati, William T. Freeman i Antonio Torralba, a očekuje se aktivna zajednica oko održavanja i proširenja dataset-a.
Česta pitanja
- Što je ArXiv?
- ArXiv je otvoreno arhivsko spremište znanstvenih preprinta pri Cornell Universityju. Radovi tamo nisu uvijek recenzirani, ali mnogi završe na konferencijama.
- Što je multimodalni benchmark?
- Multimodalni benchmark sadrži više tipova ulaza, najčešće tekst i sliku. Važan je za matematiku jer olimpijadni zadaci uključuju geometrijske dijagrame i grafikone.
Povezane vijesti
arXiv:2605.21006: Off-the-shelf persona vektori postižu 68-98% učinkovitosti targetiranog sycophancy steeringa u LLM modelima
Black Forest Labs: FLUX Erase nadmašuje GPT Image-2 (68.5%) i Finegrain (63.2%) u uklanjanju objekata bez prompta
arXiv:2605.19762: ICML 2026 paper tvrdi da kod ne poboljšava matematičko zaključivanje LLM-ova