🟢 🤖 Modeli Objavljeno: · 2 min čitanja ·

arXiv:2605.19762: ICML 2026 paper tvrdi da kod ne poboljšava matematičko zaključivanje LLM-ova

arXiv:2605.19762 ↗

Editorial illustration: ICML 2026 paper dokazuje da strukturirani reasoning signali nadmašuju čisti kod za matematičko zaključivanje LLM-ova

ArXiv preprint primljen na ICML 2026 kontroliranim pre-training eksperimentima pokazuje da izvršivi kod sam po sebi ne poboljšava opće sposobnosti zaključivanja LLM modela — kod jako poboljšava programiranje, ali se natječe s matematičkim zadacima u standardnom režimu. Stvarni napredak u matematici dolazi od cross-domain strukturiranih reasoning tragova (code-text i math-text mješavina), a mehanistička analiza Mixture-of-Experts modela otkriva ove interakcije u uzorcima expert aktivacije.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.

Preprint arXiv:2605.19762, primljen na ICML 2026, kontroliranim pre-training eksperimentima ruši rasprostranjenu pretpostavku u LLM zajednici: da dodavanje koda u trening podatke automatski poboljšava opće sposobnosti zaključivanja modela.

Koja je glavna tvrdnja?

Istraživači su trenirali više varijanti istog modela s kontroliranim mješavinama pre-training podataka — različitim udjelima koda, čistog teksta i strukturiranih matematičkih dokaza. Rezultati pokazuju da čisti kod jako poboljšava programiranje, ali ne i opće matematičko zaključivanje. Štoviše, kod i matematika konkuriraju za isti capacity u standardnom režimu, pa povećanje udjela koda može smanjiti performanse na teškim matematičkim zadacima.

Što mehanistička analiza Mixture-of-Experts modela otkriva?

Tim je u Mixture-of-Experts (MoE) modelima pratio routing aktivnosti — koji eksperti se aktiviraju za koje tipove zadataka. Pokazalo se da postoji negativna interakcija između programerskih i matematičkih eksperata u modelima treniranim sa standardnim mješavinama. Rješenje je dolaženje od cross-domain strukturiranih tragovacode-text i math-text mješavina — koji aktiviraju synergetic patterns umjesto kompetitivne raspodjele.

Praktične implikacije za pre-training labove?

Preporuka je povećati udio strukturiranih matematičkih tragova (čistih tekstualnih dokaza, korak-po-korak rješenja, math-text mješavina) u fiksnom pre-training budžetu. Tim navodi značajne gainse na teškim matematičkim benchmarkovima uz zadržavanje programerskih sposobnosti. Ovo je relevantno za labove koji rade na novim generacijama frontier modela — Anthropic, OpenAI, Google DeepMind, Meta, Mistral, DeepSeek, Qwen — i može utjecati na recepte pre-training-a iduće generacije.

Česta pitanja

Koja je glavna tvrdnja papera?
Paper tvrdi da samo dodavanje koda u pre-training poboljšava sposobnost programiranja ali ne i opće matematičko zaključivanje. Pravi napredak u matematici zahtijeva strukturirane reasoning tragove koji kombiniraju kod i tekst odnosno matematiku i tekst — cross-domain miješanje, ne čisti kod.
Što mehanistička analiza pokazuje?
U Mixture-of-Experts modelima istraživači su pratili routing aktivnosti — koji eksperti se aktiviraju za koje tipove zadataka. Pokazalo se da kodirajući i matematički eksperti dijelom konkuriraju za isti capacity u modelu, što objašnjava negativnu interakciju u standardnom pre-trainingu.
Koja je praktična preporuka?
Tim preporuča povećanje udjela strukturiranih matematičkih tragova (čistih tekstualnih dokaza, korak-po-korak rješenja) u fiksnom pre-training budžetu. Rezultat su značajni gainsi na teškim matematičkim benchmarkovima uz zadržavanje programerskih sposobnosti.