ArXiv:LongCoTベンチマークでGPT 5.2が長いchain-of-thought推論でわずか9.8%と判明
なぜ重要か
LongCoTは5つのドメインにわたる2,500の専門家設計問題を持つ新しいベンチマークで、数万〜数十万トークンを要する長いchain-of-thought推論能力をテストします。現在のフロンティアモデルはGPT 5.2が9.8%、Gemini 3 Proがわずか6.1%と劇的に低い成績を示し、自律的なAIエージェント展開の重大な弱点が明らかになりました。
オックスフォード大学・ローレンス・リバモア国立研究所・AI安全研究所の国際研究チームがLongCoTを発表しました——AIモデルの長いchain-of-thought(CoT)推論能力をテストする新しいベンチマークです。結果は最も高度なモデルでも憂慮すべき弱点があることを明らかにしています。
LongCoTは何を測定するか?
ベンチマークには5つのドメインにわたる2,500の専門家設計問題が含まれます:化学・数学・計算機科学・チェス・論理。既存のベンチマークとの重要な違いは、問題が数万〜数十万トークンに及ぶchain-of-thoughtを必要とすること——通常の短い推論タスクをはるかに超えています。
問題はフロンティアモデルが個々のステップを解けるように設計されていますが、シーケンス全体にはextended reasoning(コンテキストを失わず誤りを積み重ねずに長いステップのシーケンスを通じてコヒーレントな思考を維持する能力)が必要です。
結果はどれほど懸念すべきか?
現在のフロンティアモデルは大幅に失敗しています:GPT 5.2はわずか9.8%、Gemini 3 Proはさらに低い6.1%。これは最も有能なAIモデルでも、長いコヒーレントな推論を必要とする問題の10問に1問以上を解けないことを意味します。
この発見は、自律的なタスクへのAIエージェント活用が増大する文脈で特に重要です。デバッグセッションから研究プロセスまで、複数ステップの操作を計画・実行する必要があるエージェントは、まさに長いコヒーレントな推論能力に依存しています。
なぜAI安全性にとって重要か?
著者たちはLongCoTの弱点をAIエージェントの自律的展開にとって重大な問題として明確に識別しています。モデルが長いステップシーケンスを通じて確実に推論できなければ、自律的エージェントは複雑なタスクの後半フェーズで誤った決定を下す可能性があります——そこはまさに結果が最も深刻な場所です。
ベンチマークはまた、現在のモデルスケーリングアプローチが長い推論の問題を自動的に解決しないことも示唆しています。モデルが短いchain-of-thoughtと長いchain-of-thought推論の間のギャップを埋めるには、根本的に新しいアーキテクチャイノベーションまたはトレーニング手法が必要です。
この記事はAIにより一次情報源から生成されました。