arXiv: mmPISA-bench testira reasoning na 43 jezika

Kompaktni multilingvalni reasoning benchmark mmPISA-bench izveden je iz OECD PISA testiranja i pokriva 43 jezika, ukupno 2.150 točaka. Moderni LLM-ovi rezoniraju efektivno na svim jezicima, a strojni prijevodi rade usporedivo s ljudskima. Pojedini jezici istovremeno pokazuju veće troškove i nižu točnost.

Istraživači su 5. lipnja 2026. na arXiv repozitoriju objavili rad (oznaka arXiv:2606.07069) koji predstavlja mmPISA-bench — kompaktni multilingvalni benchmark za rezoniranje (reasoning) jezičnih modela. Mjerilo je izvedeno iz međunarodnog OECD PISA testiranja i pokriva čak 43 jezika, čime izravno propituje koliko ujednačeno suvremeni modeli razmišljaju neovisno o jeziku upita.

Što je mmPISA-bench i odakle dolazi?

Osnovu benchmarka čini OECD PISA, poznato međunarodno testiranje obrazovnih postignuća učenika. Iz njega su autori izvukli 25 pitanja s višestrukim izborom (multiple-choice) koja zahtijevaju stvarno rezoniranje, a ne puko prisjećanje činjenica.

Tih 25 pitanja prevedeno je na 43 jezika u službenim ljudskim prijevodima, a uz njih su pridodani i strojni prijevodi. Kombinacija svih jezika i tipova prijevoda daje ukupno 2.150 podatkovnih točaka. Naziv “kompaktni” benchmark ovdje je zaslužen: skup je namjerno malen, ali pažljivo konstruiran kako bi mjerio upravo sposobnost rezoniranja.

Rezoniraju li modeli jednako dobro na svim jezicima?

Glavni nalaz rada je ohrabrujuć: moderni LLM-ovi rezoniraju efektivno na svim jezicima, s točnošću koja odgovara ljudskim ispitanicima. To znači da sposobnost rješavanja zahtjevnih, logički orijentiranih pitanja nije rezervirana samo za dominantne jezike poput engleskoga, već se prenosi i na jezike s manje resursa.

Ipak, slika nije posve jednolika. Autori upozoravaju da neki jezici istovremeno pokazuju i veće inference troškove i nižu točnost — drugim riječima, za pojedine jezike model troši više resursa, a ipak postiže slabiji rezultat. Ta asimetrija ostaje otvoreno područje za daljnja poboljšanja.

Jesu li strojni prijevodi dovoljno kvalitetni?

Posebno praktičan nalaz tiče se strojnih prijevoda. U studiji oni rade usporedivo s ljudskim prijevodima, što sugerira da je kvaliteta sintetičkih podataka (strojno generiranih) dostatna za evaluaciju velikih razmjera.

Za zajednicu je to važno jer izrada multilingvalnih benchmarkova obično ovisi o skupim i sporim ljudskim prijevodima. Ako strojni prijevodi daju usporedive rezultate, otvara se put bržoj i jeftinijoj izradi mjerila koja pokrivaju mnogo jezika.

Zašto je ovaj benchmark relevantan?

mmPISA-bench popunjava prazninu u evaluaciji jer se fokusira na rezoniranje, a ne samo na prijevod ili razumijevanje teksta, i to istovremeno na velikom broju jezika. Time daje jasniju sliku o tome jesu li napredne sposobnosti modela doista globalno dostupne ili su koncentrirane u nekolicini jezika.

Zaključci rada — da modeli rezoniraju efektivno svugdje, ali uz preostale razlike u trošku i točnosti — daju i razvojnim timovima konkretne smjernice. Optimizacija inference troškova za jezike koji trenutačno zaostaju mogla bi biti sljedeći korak prema istinski ravnopravnom multilingvalnom rezoniranju.

Vrijedno je istaknuti i metodološku poruku rada. Time što pokazuje da kompaktan skup od svega 25 pažljivo odabranih pitanja, raširen na 43 jezika, može dati smislene uvide, mmPISA-bench sugerira da kvalitetan benchmark ne mora biti velik da bi bio koristan. Oslanjanje na priznati OECD PISA izvor dodatno jača vjerodostojnost pitanja, jer su ona već osmišljena da mjere stvarno rezoniranje kod ljudi.

Česta pitanja

Što je mmPISA-bench?

mmPISA-bench je kompaktni multilingvalni benchmark za rezoniranje (reasoning) izveden iz OECD PISA testiranja. Sastoji se od 25 pitanja s višestrukim izborom koja zahtijevaju rezoniranje, prevedenih na 43 jezika. Uz službene ljudske prijevode uključuje i strojne prijevode, što daje ukupno 2.150 podatkovnih točaka.

Rezoniraju li modeli jednako dobro na svim jezicima?

Prema rezultatima, moderni jezični modeli rezoniraju efektivno na svim jezicima, s točnošću koja odgovara ljudskim ispitanicima. Ipak, neki jezici istovremeno pokazuju i veće inference troškove i nižu točnost, pa razlike među jezicima nisu posve nestale.

Jesu li strojni prijevodi dovoljno dobri za ovakvu evaluaciju?

Da. U mmPISA-bench studiji strojni prijevodi rade usporedivo s ljudskima, što pokazuje da je kvaliteta sintetičkih (strojno prevedenih) podataka dovoljna za evaluaciju velikih razmjera. To olakšava izradu multilingvalnih benchmarkova jer ne ovisi isključivo o skupim ljudskim prijevodima.

arXiv:2606.07069: mmPISA-bench — rezoniraju li LLM-ovi jednako dobro na 43 jezika?

Što je mmPISA-bench i odakle dolazi?

Rezoniraju li modeli jednako dobro na svim jezicima?

Jesu li strojni prijevodi dovoljno kvalitetni?

Zašto je ovaj benchmark relevantan?

Česta pitanja

Izvori

Povezane vijesti