arXiv OpenDeepThink: Codeforces +405 Elo 向上

OpenDeepThink は、Shang Zhou および共同研究者が 2026 年 5 月 14 日に arXiv で発表した新しいポピュレーションベースのテスト時計算スケーリング手法です。このフレームワークは、ポイントワイズ LLM 判定ではなく、ペアワイズ Bradley-Terry 比較によって複数の推論候補を並列サンプリングし、最良のものを選択します。結果として、8 回のシーケンシャル LLM 呼び出しラウンド（約 27 分）を通じて、Gemini 3.1 Pro は Codeforces ベンチマークで +405 Elo の向上を達成しました。チームはまた、73 の専門家評価 Codeforces 問題を含む CF-73 データセットを公開しました。

Shang Zhou、Wenhao Chai、Kaiyuan Liu、Huanzhi Mao、Qiuyang Mang、Jingbo Shang の研究チームが 2026 年 5 月 14 日に、並列推論スケーリングにおける最もよく知られた問題の 1 つに対処する論文を発表しました。その問題とは、真値検証器なしに並列候補の中から最良の回答を確実に選択する方法です。

並列推論における選択ボトルネックとは何ですか？

テスト時計算スケーリングは並列サンプリングをますます活用しています。モデルが N 個の候補を生成し、システムが最良のものを選択します。問題は選択にあります。真値検証器なしでは、ポイントワイズ LLM 判定は**「ノイズが多く偏りがある」**ものです。モデルは自身の出力を評価する際に信頼性が低いのです。OpenDeepThink が提案する解決策は異なるアプローチです。Bradley-Terry 集約を用いたペアワイズ比較です。

Bradley-Terry 生成ループはどのように機能しますか？

システムは 8 つのステップを通じて世代ごとに動作します。

ランダムペアリング — LLM がランダムな候補ペアを判定します
Bradley-Terry 集約 — 投票が Bradley-Terry 統計モデルを使用してグローバルランキングに変換されます
選択 — 上位候補が保持されます
変異 — 上位 4 分の 3 が比較から導出された自然言語批評によって修正されます
破棄 — 下位 4 分の 1 が破棄されます
ループが 8 シーケンシャルラウンド（約 27 分）にわたって繰り返されます

このアプローチは進化的アルゴリズムに着想を得ています。集団は世代を通じて持続しますが、生物学的適応度関数の代わりに LLM ベースのペアワイズ選好学習を使用します。

論文が具体的に示す数値は何ですか？

最も重要な指標は、Codeforces ベンチマークにおいて、OpenDeepThink が 8 回のシーケンシャル LLM 呼び出しラウンド（約 27 分）を通じて Gemini 3.1 Pro の有効 Elo レーティングを +405 ポイント向上させたことです。+405 Elo は劇的な飛躍です。グランドマスターレベルの Gemini を人間の世界トップ競技者と競えるカテゴリに変えます。

マルチドメイン HLE ベンチマークでは、改善は客観的に検証可能なドメイン（数学、プログラミング）に集中していますが、主観的なドメイン（クリエイティブライティング、意見）では逆の傾向が見られました。これは Bradley-Terry が明確な「より良い回答」のシグナルが存在する場合にのみ機能することを示唆しています。

CF-73 データセットは何をもたらしますか？

チームは CF-73 を公開しました。グランドマスターのアノテーションを持つ 73 の専門家評価 Codeforces 問題の厳選データセットです。CF-73 は今後の推論研究のための公開評価リソースとして機能し、ベンチマークが急速に陳腐化するドメインでの測定プロトコルの標準化に役立ちます。

このフレームワークは再チューニングなしでモデルバリアントをまたいで転用できます。これにより、あらゆるフロンティア推論システムへの「モデル非依存」な追加となります。このアプローチは SU-01（arXiv:2605.13301、5 月 13 日）のオリンピック金メダルレベルの推論と直接競合しますが、異なる方向性です。SU-01 は専門モデルをトレーニングし、OpenDeepThink はより賢い推論ループを備えた汎用 LLM を使用します。

よくある質問

並列推論の文脈における Bradley-Terry 集約とは何ですか？

Bradley-Terry はペアワイズ比較のための統計モデルです。OpenDeepThink はポイントワイズ LLM 判定の代わりにこれを使用します。LLM が候補のペアを判定し、投票が Bradley-Terry 統計モデルによってグローバルランキングに変換され、上位候補が保持されて比較から導出された自然言語批評によって変異されます。

CF-73 データセットとは何ですか？

CF-73 は、グランドマスターのアノテーションを持つ 73 の専門家評価 Codeforces 問題の厳選データセットです。OpenDeepThink チームが今後の推論研究のための公開評価リソースとして公開しました。

arXiv:2605.15177 OpenDeepThink: Bradley-Terry 集約による並列推論で Gemini 3.1 Pro の Codeforces Elo が +405 向上

並列推論における選択ボトルネックとは何ですか？

Bradley-Terry 生成ループはどのように機能しますか？

論文が具体的に示す数値は何ですか？

CF-73 データセットは何をもたらしますか？

よくある質問

出典

関連ニュース