arXiv:2606.26935：CoTトレーニングが行動予測を強化

arXiv:2606.26935の研究者Jingyu Liuらの研究によると、LLMエージェントにおける思考連鎖（CoT）トレーニングの恩恵は、より深い推論ではなくより強い直接行動予測として現れることが示されました。後期チェックポイントではCoTに応答して行動を修正する頻度が低下し、行動トークンへの監督をマスクすることでドメイン外への汎化性能が向上します。

CoTトレーニングの恩恵はどこに着地するのか？

Where Do CoT Training Gains Land in LLM based Agents?（arXiv:2606.26935、Jingyu Liuら、2026年6月25日提出）と題された研究は、思考連鎖トレーニングの恩恵がより深い推論ではなく直接行動予測に流れ込むことを主張しています。CoT（Chain-of-Thought、思考連鎖）は、モデルが最終決定の前に推論ステップを生成する手法です。著者らはトレーニングのチェックポイントを通じて、プロンプト行動（CoTなし）とCoT行動を比較しています。

チェックポイント比較の手法

プロンプト行動の品質はトレーニングを通じて大幅に向上しましたが、CoTの直接予測に対する相対的な優位性は安定していました。つまり、CoTトレーニングは思考連鎖の優位性を拡大したのではなく、モデルが正確な行動を直接予測する能力を向上させたということです。後期チェックポイントでは、モデルがCoTに応答して行動を修正する傾向が低下しており、初期評価への依存度が高まっていることが示唆されます。

マスキングによる介入

著者らはある介入をテストしています：トレーニング中に一部のサンプルにおいて行動トークンへの監督をマスクすることです。この変更によりドメイン外（out-of-domain）への汎化性能が向上しました。この発見は、CoTトレーニングがモデルに問題をより深く推論させるという広く受け入れられた前提に疑問を呈しています — 実際のところ、モデルは単に結果をより確実に予測するようになっているだけかもしれません。

よくある質問

CoT（思考連鎖）とは何ですか？

CoT（Chain-of-Thought、思考連鎖）は、モデルが最終的な行動や回答の前に推論ステップを生成する手法です。

CoTトレーニングについて研究は何を明らかにしましたか？

トレーニングの恩恵は主に直接行動予測を強化するものであり、トレーニング中に直接予測に対するCoTの優位性は増大しないことが示されています。

arXiv:2606.26935：CoTトレーニングの恩恵はより深い推論ではなくより強い行動予測として現れる

CoTトレーニングの恩恵はどこに着地するのか？

チェックポイント比較の手法

マスキングによる介入

よくある質問

出典

関連ニュース