arXiv:2605.19762: ICML 2026 paper tvrdi da kod ne poboljšava matematičko zaključivanje LLM-ova
ArXiv preprint primljen na ICML 2026 kontroliranim pre-training eksperimentima pokazuje da izvršivi kod sam po sebi ne poboljšava opće sposobnosti zaključivanja LLM modela — kod jako poboljšava programiranje, ali se natječe s matematičkim zadacima u standardnom režimu. Stvarni napredak u matematici dolazi od cross-domain strukturiranih reasoning tragova (code-text i math-text mješavina), a mehanistička analiza Mixture-of-Experts modela otkriva ove interakcije u uzorcima expert aktivacije.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Preprint arXiv:2605.19762, primljen na ICML 2026, kontroliranim pre-training eksperimentima ruši rasprostranjenu pretpostavku u LLM zajednici: da dodavanje koda u trening podatke automatski poboljšava opće sposobnosti zaključivanja modela.
Koja je glavna tvrdnja?
Istraživači su trenirali više varijanti istog modela s kontroliranim mješavinama pre-training podataka — različitim udjelima koda, čistog teksta i strukturiranih matematičkih dokaza. Rezultati pokazuju da čisti kod jako poboljšava programiranje, ali ne i opće matematičko zaključivanje. Štoviše, kod i matematika konkuriraju za isti capacity u standardnom režimu, pa povećanje udjela koda može smanjiti performanse na teškim matematičkim zadacima.
Što mehanistička analiza Mixture-of-Experts modela otkriva?
Tim je u Mixture-of-Experts (MoE) modelima pratio routing aktivnosti — koji eksperti se aktiviraju za koje tipove zadataka. Pokazalo se da postoji negativna interakcija između programerskih i matematičkih eksperata u modelima treniranim sa standardnim mješavinama. Rješenje je dolaženje od cross-domain strukturiranih tragova — code-text i math-text mješavina — koji aktiviraju synergetic patterns umjesto kompetitivne raspodjele.
Praktične implikacije za pre-training labove?
Preporuka je povećati udio strukturiranih matematičkih tragova (čistih tekstualnih dokaza, korak-po-korak rješenja, math-text mješavina) u fiksnom pre-training budžetu. Tim navodi značajne gainse na teškim matematičkim benchmarkovima uz zadržavanje programerskih sposobnosti. Ovo je relevantno za labove koji rade na novim generacijama frontier modela — Anthropic, OpenAI, Google DeepMind, Meta, Mistral, DeepSeek, Qwen — i može utjecati na recepte pre-training-a iduće generacije.
Česta pitanja
- Koja je glavna tvrdnja papera?
- Paper tvrdi da samo dodavanje koda u pre-training poboljšava sposobnost programiranja ali ne i opće matematičko zaključivanje. Pravi napredak u matematici zahtijeva strukturirane reasoning tragove koji kombiniraju kod i tekst odnosno matematiku i tekst — cross-domain miješanje, ne čisti kod.
- Što mehanistička analiza pokazuje?
- U Mixture-of-Experts modelima istraživači su pratili routing aktivnosti — koji eksperti se aktiviraju za koje tipove zadataka. Pokazalo se da kodirajući i matematički eksperti dijelom konkuriraju za isti capacity u modelu, što objašnjava negativnu interakciju u standardnom pre-trainingu.
- Koja je praktična preporuka?
- Tim preporuča povećanje udjela strukturiranih matematičkih tragova (čistih tekstualnih dokaza, korak-po-korak rješenja) u fiksnom pre-training budžetu. Rezultat su značajni gainsi na teškim matematičkim benchmarkovima uz zadržavanje programerskih sposobnosti.