ICML 2026: strukturirani reasoning > kod za matematiku

ArXiv preprint primljen na ICML 2026 kontroliranim pre-training eksperimentima pokazuje da izvršivi kod sam po sebi ne poboljšava opće sposobnosti zaključivanja LLM modela — kod jako poboljšava programiranje, ali se natječe s matematičkim zadacima u standardnom režimu. Stvarni napredak u matematici dolazi od cross-domain strukturiranih reasoning tragova (code-text i math-text mješavina), a mehanistička analiza Mixture-of-Experts modela otkriva ove interakcije u uzorcima expert aktivacije.

Preprint arXiv:2605.19762, primljen na ICML 2026, kontroliranim pre-training eksperimentima ruši rasprostranjenu pretpostavku u LLM zajednici: da dodavanje koda u trening podatke automatski poboljšava opće sposobnosti zaključivanja modela.

Koja je glavna tvrdnja?

Istraživači su trenirali više varijanti istog modela s kontroliranim mješavinama pre-training podataka — različitim udjelima koda, čistog teksta i strukturiranih matematičkih dokaza. Rezultati pokazuju da čisti kod jako poboljšava programiranje, ali ne i opće matematičko zaključivanje. Štoviše, kod i matematika konkuriraju za isti capacity u standardnom režimu, pa povećanje udjela koda može smanjiti performanse na teškim matematičkim zadacima.

Što mehanistička analiza Mixture-of-Experts modela otkriva?

Tim je u Mixture-of-Experts (MoE) modelima pratio routing aktivnosti — koji eksperti se aktiviraju za koje tipove zadataka. Pokazalo se da postoji negativna interakcija između programerskih i matematičkih eksperata u modelima treniranim sa standardnim mješavinama. Rješenje je dolaženje od cross-domain strukturiranih tragova — code-text i math-text mješavina — koji aktiviraju synergetic patterns umjesto kompetitivne raspodjele.

Praktične implikacije za pre-training labove?

Preporuka je povećati udio strukturiranih matematičkih tragova (čistih tekstualnih dokaza, korak-po-korak rješenja, math-text mješavina) u fiksnom pre-training budžetu. Tim navodi značajne gainse na teškim matematičkim benchmarkovima uz zadržavanje programerskih sposobnosti. Ovo je relevantno za labove koji rade na novim generacijama frontier modela — Anthropic, OpenAI, Google DeepMind, Meta, Mistral, DeepSeek, Qwen — i može utjecati na recepte pre-training-a iduće generacije.

Česta pitanja

Koja je glavna tvrdnja papera?

Paper tvrdi da samo dodavanje koda u pre-training poboljšava sposobnost programiranja ali ne i opće matematičko zaključivanje. Pravi napredak u matematici zahtijeva strukturirane reasoning tragove koji kombiniraju kod i tekst odnosno matematiku i tekst — cross-domain miješanje, ne čisti kod.

Što mehanistička analiza pokazuje?

U Mixture-of-Experts modelima istraživači su pratili routing aktivnosti — koji eksperti se aktiviraju za koje tipove zadataka. Pokazalo se da kodirajući i matematički eksperti dijelom konkuriraju za isti capacity u modelu, što objašnjava negativnu interakciju u standardnom pre-trainingu.

Koja je praktična preporuka?

Tim preporuča povećanje udjela strukturiranih matematičkih tragova (čistih tekstualnih dokaza, korak-po-korak rješenja) u fiksnom pre-training budžetu. Rezultat su značajni gainsi na teškim matematičkim benchmarkovima uz zadržavanje programerskih sposobnosti.

arXiv:2605.19762: ICML 2026 paper tvrdi da kod ne poboljšava matematičko zaključivanje LLM-ova

Koja je glavna tvrdnja?

Što mehanistička analiza Mixture-of-Experts modela otkriva?

Praktične implikacije za pre-training labove?

Česta pitanja

Izvori

Povezane vijesti