arXiv:2605.19762: ICML 2026論文——コードはLLMの数学的推論を改善しないと主張
ICML 2026に採択されたarXivプレプリントは、制御された事前学習実験を通じて、実行可能なコード自体はLLMモデルの全般的な推論能力を改善しないことを示しています。コードはプログラミングを大幅に向上させますが、標準モードでは数学タスクと競合します。数学における本当の進歩はクロスドメインの構造化推論トレース(コード-テキストと数学-テキストの混合)から来ており、Mixture-of-Expertsモデルのメカニスティック分析がエキスパート活性化パターンにこれらの相互作用を明らかにしています。
この記事はAIにより一次情報源から生成されました。
プレプリントarXiv:2605.19762はICML 2026に採択されており、制御された事前学習実験を通じてLLMコミュニティで広く共有されていた仮定を覆します:学習データにコードを追加することがモデルの全般的な推論能力を自動的に向上させるというものです。
主要な主張は何か?
研究者たちは同じモデルの複数のバリアントを、コード、純粋なテキスト、構造化された数学的証明の比率を変えた制御された混合の事前学習データで学習させました。結果は、純粋なコードはプログラミングを大幅に改善するが、全般的な数学的推論は改善しないことを示しています。さらに、コードと数学は標準モードで同じ容量を奪い合うため、コードの比率を増やすと困難な数学タスクのパフォーマンスが低下する可能性があります。
Mixture-of-Expertsモデルのメカニスティック分析は何を明らかにするか?
チームはMixture-of-Experts(MoE)モデルでルーティング活動——どのエキスパートがどのタイプのタスクに対して活性化されるか——を追跡しました。標準的な混合で学習したモデルでは、コーディングエキスパートと数学エキスパートの間に負の相互作用が存在することが示されました。解決策はクロスドメイン構造化トレースから来ており——コード-テキストと数学-テキストの混合——これらは競合的な割り当てではなく相乗的なパターンを活性化します。
事前学習ラボへの実践的な示唆は?
推奨は固定された事前学習予算内で構造化された数学トレース(純粋なテキスト証明、ステップバイステップの解法、数学-テキスト混合)の割合を増やすことです。チームはプログラミング能力を維持しながら困難な数学ベンチマークで大幅な向上を報告しています。これは新世代のフロンティアモデルに取り組んでいるラボ——Anthropic、OpenAI、Google DeepMind、Meta、Mistral、DeepSeek、Qwen——に関連性があり、次世代の事前学習レシピに影響を与える可能性があります。
よくある質問
- 論文の主要な主張は何ですか?
- 論文は、事前学習にコードを追加するだけではプログラミング能力は向上するが、全般的な数学的推論は改善しないと主張しています。数学の本当の進歩には、コードとテキスト、あるいは数学とテキストを組み合わせた構造化推論トレース——クロスドメイン混合(純粋なコードではない)——が必要です。
- メカニスティック分析は何を示していますか?
- 研究者はMixture-of-Experts(MoE)モデルでルーティング活動——どのエキスパートがどのタイプのタスクに対して活性化されるか——を追跡しました。標準的な混合で学習したモデルでは、コーディングエキスパートと数学エキスパートが部分的にモデル内の同じ容量を奪い合っていることが示され、これが標準的な事前学習における負の相互作用を説明しています。
- 実践的な推奨事項は何ですか?
- チームは固定された事前学習予算内で構造化された数学トレース(純粋なテキスト証明、ステップバイステップの解法、数学-テキスト混合)の割合を増やすことを推奨しています。その結果、プログラミング能力を維持しながら困難な数学ベンチマークで大幅な向上が得られます。