arXiv:2606.26502：モデルは失敗時もトークンを増やし続ける

arXiv:2606.26502の研究者Han-yu Wangによる研究は、大規模推論モデル（LRM）が正確に解いたタスクよりも最終的に失敗したタスクにより多くのトークンを消費することを明らかにしました。これは難しいタスクで諦める人間とは逆の傾向です。H-ARCベンチマークでのCohen's d値は1.47〜3.13と大きく、テストした5つのモデルすべてで人間とは逆のパターンが確認されました。

モデルはなぜ失敗してもやめないのか？

Humans Disengage, Reasoning Models Persist（arXiv:2606.26502、Han-yu Wang、2026年6月25日提出）と題された研究は、大規模推論モデル（LRM、Large Reasoning Models — 長い推論連鎖を生成するモデル）が最終的に失敗したタスクにおいて、正確に解いたタスクよりも多くのトークンを消費することを示しています。人間はその逆の傾向を示します：失敗するタスクでは諦めてかける時間が少なくなります。

難易度の認識と努力配分

著者は2つのメカニズムを区別しています：認識（応答時間が異なるタスク間での難易度とどのように相関するか）と配分（失敗時または成功時に努力が増加するか）。人間とLRMはタスク間での難易度の認識は同様ですが、同じタスク内では乖離します。この差は大きく：Cohen’s d（効果量の指標）はH-ARCベンチマークで1.47〜3.13であり、テストした5つのモデルすべてで人間とは逆のパターンが確認されました。

推論効率への影響

この乖離は複数のデータセットおよびタスクの固定効果下で維持されており、単なる難易度の問題ではないことを示しています。この解釈によれば、LRMは失敗の可能性が高まるにつれて不確実性に駆られた推論連鎖を延長し続けます。実用上の意味として、より長い回答が正確さの信頼できる指標ではないということです — それはむしろモデルが問題に行き詰まっているサインかもしれません。

よくある質問

人間と推論モデルの主な違いは何ですか？

人間は失敗するタスクでは諦め、かける時間が少なくなります。一方、推論モデルは失敗の可能性が高まるほど推論連鎖を延長し続けます。

Cohen's dとは何ですか？

Cohen's dは効果量の指標です。1.47〜3.13という値は、正確な回答と不正確な回答でのトークン消費量の間に非常に大きな差異があることを示しています。

arXiv:2606.26502：推論モデルは失敗したタスクにより多くのトークンを消費し、諦める人間とは逆の傾向を示す

モデルはなぜ失敗してもやめないのか？

難易度の認識と努力配分

推論効率への影響

よくある質問

出典

関連ニュース