MathNet: 30.676 olimpijadnih zadataka iz 47 zemalja, SOTA modeli i dalje zaostaju
Zašto je bitno
MIT tim je objavio MathNet, multimodalni benchmark s 30.676 olimpijadnih matematičkih zadataka iz 47 zemalja i 17 jezika. Gemini-3.1-Pro postiže 78,4%, GPT-5 69,3%, a embedding modeli imaju velike poteškoće s pronalaženjem matematički ekvivalentnih problema.
MathNet: 30.676 olimpijadnih zadataka iz 47 zemalja, SOTA modeli i dalje zaostaju
Tim MIT istraživača predvođen Shaden Alshammari objavio je MathNet, dosad najveći multimodalni benchmark olimpijadnih matematičkih zadataka. Rad je prihvaćen na konferenciju ICLR 2026.
Što MathNet donosi
MathNet sadrži 30.676 zadataka s pratećim rješenjima koje su pisali stručnjaci, a sakupljeni su iz dva desetljeća matematičkih olimpijada u 47 zemalja i 17 jezika. Dataset je multimodalan, što znači da uključuje i tekstualne formulacije i dijagrame, grafikone i geometrijske skice koji su neizbježni u olimpijadnoj matematici. Benchmark mjeri tri različita zadatka: rješavanje problema, točnost matematičkog retrieval-a i retrieval-augmented problem-solving. Za posljednja dva istraživači su ručno kurirali parove zadataka koji su matematički ekvivalentni ali strukturno različito formulirani.
Rezultati trenutnih modela
SOTA modeli pokazuju značajne praznine. Gemini-3.1-Pro postiže 78,4% točnosti, dok GPT-5 doseže 69,3%. Iako su ovo impresivni brojevi za kompleksne olimpijadne zadatke, rezultati potvrđuju da matematičko rezoniranje najviše razine i dalje nije u potpunosti riješeno. Zanimljivo otkriće je da embedding modeli, koji pretvaraju tekst u numeričke vektore za pretragu sličnosti, imaju velikih poteškoća s pronalaženjem matematički ekvivalentnih problema kad su oni formulirani različitim rječnikom. To je ključno jer retrieval-augmented pristupi ovise o kvaliteti pretrage.
Zašto retrieval kvaliteta mijenja igru
Model DeepSeek-V3.2-Speciale dobio je do 12 postotnih bodova poboljšanja kad mu se dostavila kvalitetna pretraga srodnih zadataka. To sugerira da budući napredak u matematičkom AI-u neće doći samo od većih modela, nego i od boljih embedding arhitektura specifičnih za matematičku semantiku. Klasični tekstualni embeddingi treniraju se na općenitim korpusima gdje dva zadatka o Diofantovim jednadžbama mogu izgledati vrlo različito ako koriste drugačije notacije ili jezike. Potreba za specijaliziranim matematičkim embeddingom stvara priliku za nove istraživačke pravce, a MathNet osigurava standardiziran skup parova za njihovu evaluaciju. Dataset i benchmark javno su dostupni na mathnet.mit.edu pod Creative Commons BY 4.0 licencom. Autori su ujedno Kevin Wen, Abrar Zainal, Mark Hamilton, Navid Safaei, Sultan Albarakati, William T. Freeman i Antonio Torralba, a očekuje se aktivna zajednica oko održavanja i proširenja dataset-a.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Povezane vijesti
OpenAI predstavio GPT-5.5: najpametniji model za kodiranje, istraživanje i složenu analizu podataka kroz alate
Apple predstavio MANZANO — unificirani multimodalni model koji balansira razumijevanje i generiranje slika
Google objavio GA gemini-embedding-2: prvi multimodalni embedding model s 5 modaliteta u istom prostoru