MathNet: 30.676 olimpijadnih zadataka za AI modele

MIT tim je objavio MathNet, multimodalni benchmark s 30.676 olimpijadnih matematičkih zadataka iz 47 zemalja i 17 jezika. Gemini-3.1-Pro postiže 78,4%, GPT-5 69,3%, a embedding modeli imaju velike poteškoće s pronalaženjem matematički ekvivalentnih problema.

Tim MIT istraživača predvođen Shaden Alshammari objavio je MathNet, dosad najveći multimodalni benchmark olimpijadnih matematičkih zadataka. Rad je prihvaćen na konferenciju ICLR 2026.

Što MathNet donosi

MathNet sadrži 30.676 zadataka s pratećim rješenjima koje su pisali stručnjaci, a sakupljeni su iz dva desetljeća matematičkih olimpijada u 47 zemalja i 17 jezika. Dataset je multimodalan, što znači da uključuje i tekstualne formulacije i dijagrame, grafikone i geometrijske skice koji su neizbježni u olimpijadnoj matematici. Benchmark mjeri tri različita zadatka: rješavanje problema, točnost matematičkog retrieval-a i retrieval-augmented problem-solving. Za posljednja dva istraživači su ručno kurirali parove zadataka koji su matematički ekvivalentni ali strukturno različito formulirani.

Rezultati trenutnih modela

SOTA modeli pokazuju značajne praznine. Gemini-3.1-Pro postiže 78,4% točnosti, dok GPT-5 doseže 69,3%. Iako su ovo impresivni brojevi za kompleksne olimpijadne zadatke, rezultati potvrđuju da matematičko rezoniranje najviše razine i dalje nije u potpunosti riješeno. Zanimljivo otkriće je da embedding modeli, koji pretvaraju tekst u numeričke vektore za pretragu sličnosti, imaju velikih poteškoća s pronalaženjem matematički ekvivalentnih problema kad su oni formulirani različitim rječnikom. To je ključno jer retrieval-augmented pristupi ovise o kvaliteti pretrage.

Zašto retrieval kvaliteta mijenja igru

Model DeepSeek-V3.2-Speciale dobio je do 12 postotnih bodova poboljšanja kad mu se dostavila kvalitetna pretraga srodnih zadataka. To sugerira da budući napredak u matematičkom AI-u neće doći samo od većih modela, nego i od boljih embedding arhitektura specifičnih za matematičku semantiku. Klasični tekstualni embeddingi treniraju se na općenitim korpusima gdje dva zadatka o Diofantovim jednadžbama mogu izgledati vrlo različito ako koriste drugačije notacije ili jezike. Potreba za specijaliziranim matematičkim embeddingom stvara priliku za nove istraživačke pravce, a MathNet osigurava standardiziran skup parova za njihovu evaluaciju. Dataset i benchmark javno su dostupni na mathnet.mit.edu pod Creative Commons BY 4.0 licencom. Autori su ujedno Kevin Wen, Abrar Zainal, Mark Hamilton, Navid Safaei, Sultan Albarakati, William T. Freeman i Antonio Torralba, a očekuje se aktivna zajednica oko održavanja i proširenja dataset-a.

Česta pitanja

Što je ArXiv?

ArXiv je otvoreno arhivsko spremište znanstvenih preprinta pri Cornell Universityju. Radovi tamo nisu uvijek recenzirani, ali mnogi završe na konferencijama.

Što je multimodalni benchmark?

Multimodalni benchmark sadrži više tipova ulaza, najčešće tekst i sliku. Važan je za matematiku jer olimpijadni zadaci uključuju geometrijske dijagrame i grafikone.

MathNet: 30.676 olimpijadnih zadataka iz 47 zemalja, SOTA modeli i dalje zaostaju

Što MathNet donosi

Rezultati trenutnih modela

Zašto retrieval kvaliteta mijenja igru

Česta pitanja

Izvori

Povezane vijesti