Evaluacija
Benchmark
Standardizirani test ili skup podataka kojim se mjeri i uspoređuje sposobnost AI modela — primjerice MMLU, GPQA, SWE-bench, HumanEval i MMMU.
Benchmark (benchmark) je standardizirani test ili skup podataka kojim se mjeri i objektivno uspoređuje sposobnost AI modela na nekom zadatku. Svaki benchmark definira fiksni skup pitanja ili problema te način bodovanja (najčešće postotak točnih odgovora), pa različiti modeli dobivaju usporedive rezultate.
Poznati benchmarkovi pokrivaju različite vještine: MMLU akademsko znanje kroz 57 područja, GPQA pitanja na razini doktorata iz prirodnih znanosti, SWE-bench rješavanje stvarnih GitHub bugova, HumanEval pisanje programa, a MMMU multimodalno razumijevanje slike i teksta. Rezultati se objavljuju u sustavskim karticama uz svaki novi frontier model.
Benchmarkovi su središnji u evaluaciji AI sustava 2025.–2026., ali imaju granice. Stariji testovi poput MMLU-a su zasićeni (vodeći modeli prelaze 90 %), a postoji rizik od kontaminacije — pojavljivanja testnih pitanja u podacima za treniranje. Visok rezultat ne jamči pouzdanost u praksi niti odsutnost halucinacija, pa industrija stalno razvija teže i realnije testove, osobito za modele zaključivanja.