arXiv:2606.20517: Multi-LCB proširuje LiveCodeBench na 12 programskih jezika i otkriva Python overfitting kod 24 modela
Multi-LCB je proširenje benchmarka LiveCodeBench s Pythona na 12 programskih jezika, opisano u radu arXiv:2606.20517 i prihvaćeno na konferenciji ICLR 2026. Testiranjem 24 velika jezična modela autori otkrivaju značajno preprilagođavanje (overfitting) Pythonu te jezično-specifičnu kontaminaciju podataka, čime izravno otkrivaju granice višejezičnog generiranja koda u današnjim modelima.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Novi rad arXiv:2606.20517 predstavlja Multi-LCB, proširenje popularnog benchmarka LiveCodeBench s Pythona na 12 programskih jezika. LiveCodeBench je test koji mjeri sposobnost velikih jezičnih modela da pišu ispravan kod na temelju zadataka, a dosadašnja usredotočenost na Python ostavljala je otvorenim pitanje koliko modeli stvarno razumiju druge jezike. Rad je prihvaćen na ICLR 2026, jednoj od vodećih konferencija za strojno učenje.
Što je otkriveno
Testiranjem 24 velika jezična modela autori su utvrdili dva problema. Prvi je značajan Python overfitting — modeli su znatno uspješniji u Pythonu nego u drugim jezicima, što sugerira da su prilagođeni distribuciji podataka za obuku, a ne općem razumijevanju programiranja. Drugi je jezično-specifična kontaminacija podataka, gdje su pojedini testni zadaci vjerojatno već viđeni tijekom treniranja.
Zašto je razlika među jezicima važna
Kontaminacija podataka znači da su rezultati benchmarka napuhani jer model “pamti” rješenja umjesto da ih izvodi. Za razliku od jednojezičnih testova koji takvu razliku skrivaju, Multi-LCB ju izlaže usporedbom uspješnosti kroz 12 jezika. Praktična posljedica: ocjena modela mjerena isključivo Pythonom precjenjuje njegovu stvarnu sposobnost generiranja koda u jezicima poput Rusta, Go-a ili Kotlina.
Implikacija za razvoj alata
Nalaz je relevantan za razvojne timove koji se oslanjaju na AI asistente izvan Python ekosustava. Multi-LCB nudi pošteniju, višejezičnu mjeru i otvoreni je resurs za buduće evaluacije, pa daje proizvođačima modela jasniji signal gdje je potrebno poboljšanje treninga na manje zastupljenim jezicima.
Česta pitanja
- Što je Multi-LCB?
- Multi-LCB je proširenje benchmarka LiveCodeBench s Pythona na 12 programskih jezika, namijenjeno mjerenju višejezičnog generiranja koda kod velikih jezičnih modela.
- Koliko je modela testirano?
- Autori su testirali 24 velika jezična modela i otkrili značajan Python overfitting te jezično-specifičnu kontaminaciju podataka.
- Gdje je rad objavljen?
- Rad arXiv:2606.20517 prihvaćen je na konferenciji ICLR 2026.
Povezane vijesti
UK AISI: Engineering Playbook otvara infrastrukturu za evaluaciju frontier modela u pet slojeva
Black Forest Labs: Robin Rombach poziva G7 lidere na podršku otvorenom razvoju AI-a
Allen Institute: Open-source MolmoMotion predviđa 3D kretanje iz videa i postavlja SOTA u robotici