Multi-LCB: LiveCodeBench na 12 jezika, 24 modela

Multi-LCB je proširenje benchmarka LiveCodeBench s Pythona na 12 programskih jezika, opisano u radu arXiv:2606.20517 i prihvaćeno na konferenciji ICLR 2026. Testiranjem 24 velika jezična modela autori otkrivaju značajno preprilagođavanje (overfitting) Pythonu te jezično-specifičnu kontaminaciju podataka, čime izravno otkrivaju granice višejezičnog generiranja koda u današnjim modelima.

Novi rad arXiv:2606.20517 predstavlja Multi-LCB, proširenje popularnog benchmarka LiveCodeBench s Pythona na 12 programskih jezika. LiveCodeBench je test koji mjeri sposobnost velikih jezičnih modela da pišu ispravan kod na temelju zadataka, a dosadašnja usredotočenost na Python ostavljala je otvorenim pitanje koliko modeli stvarno razumiju druge jezike. Rad je prihvaćen na ICLR 2026, jednoj od vodećih konferencija za strojno učenje.

Što je otkriveno

Testiranjem 24 velika jezična modela autori su utvrdili dva problema. Prvi je značajan Python overfitting — modeli su znatno uspješniji u Pythonu nego u drugim jezicima, što sugerira da su prilagođeni distribuciji podataka za obuku, a ne općem razumijevanju programiranja. Drugi je jezično-specifična kontaminacija podataka, gdje su pojedini testni zadaci vjerojatno već viđeni tijekom treniranja.

Zašto je razlika među jezicima važna

Kontaminacija podataka znači da su rezultati benchmarka napuhani jer model “pamti” rješenja umjesto da ih izvodi. Za razliku od jednojezičnih testova koji takvu razliku skrivaju, Multi-LCB ju izlaže usporedbom uspješnosti kroz 12 jezika. Praktična posljedica: ocjena modela mjerena isključivo Pythonom precjenjuje njegovu stvarnu sposobnost generiranja koda u jezicima poput Rusta, Go-a ili Kotlina.

Implikacija za razvoj alata

Nalaz je relevantan za razvojne timove koji se oslanjaju na AI asistente izvan Python ekosustava. Multi-LCB nudi pošteniju, višejezičnu mjeru i otvoreni je resurs za buduće evaluacije, pa daje proizvođačima modela jasniji signal gdje je potrebno poboljšanje treninga na manje zastupljenim jezicima.

Česta pitanja

Što je Multi-LCB?

Multi-LCB je proširenje benchmarka LiveCodeBench s Pythona na 12 programskih jezika, namijenjeno mjerenju višejezičnog generiranja koda kod velikih jezičnih modela.

Koliko je modela testirano?

Autori su testirali 24 velika jezična modela i otkrili značajan Python overfitting te jezično-specifičnu kontaminaciju podataka.

Gdje je rad objavljen?

Rad arXiv:2606.20517 prihvaćen je na konferenciji ICLR 2026.

arXiv:2606.20517: Multi-LCB proširuje LiveCodeBench na 12 programskih jezika i otkriva Python overfitting kod 24 modela

Što je otkriveno

Zašto je razlika među jezicima važna

Implikacija za razvoj alata

Česta pitanja

Izvori

Povezane vijesti