arXiv OpenDeepThink：Codeforces +405 Elo 提升

OpenDeepThink 是由 Shang Zhou 及合作者于 2026 年 5 月 14 日在 arXiv 上发布的新型基于种群的测试时计算扩展方法。该框架并行采样多个推理候选方案，通过逐对 Bradley-Terry 比较（而非逐点 LLM 评判）选出最佳结果。结果：Gemini 3.1 Pro 经过 8 轮序列 LLM 调用（约 27 分钟），在 Codeforces 基准测试中获得 +405 Elo 提升。团队还发布了包含 73 道专家评分 Codeforces 题目的 CF-73 数据集。

Shang Zhou、Wenhao Chai、Kaiyuan Liu、Huanzhi Mao、Qiuyang Mang 和 Jingbo Shang 于 2026 年 5 月 14 日发表论文，解决了并行推理扩展中最为人熟知的问题之一：在没有真值验证器的情况下，如何从并行候选方案中可靠地选出最佳答案。

并行推理中的选择瓶颈是什么？

测试时计算扩展越来越多地采用并行采样——模型生成 N 个候选方案，系统选出最佳。问题在于选择：没有真值验证器，逐点 LLM 评判**「噪声大且存在偏差」**——模型在评估自身输出时并不可靠。OpenDeepThink 提出了不同的解决方案：通过 Bradley-Terry 聚合进行逐对比较。

Bradley-Terry 生成循环如何运作？

系统按代运行，共八个步骤：

随机配对 — LLM 对随机配对的候选方案进行裁判
Bradley-Terry 聚合 — 票数通过 Bradley-Terry 统计模型转化为全局排名
选择 — 保留排名靠前的候选方案
变异 — 前四分之三通过从比较中得出的自然语言批评进行修改
淘汰 — 丢弃后四分之一
循环重复 8 轮（约 27 分钟）

该方案受进化算法启发——种群跨代延续，但以基于 LLM 的逐对偏好学习替代生物适应度函数。

论文具体展示了哪些数据？

最重要的指标：在 Codeforces 基准测试中，OpenDeepThink 经过 8 轮序列 LLM 调用（约 27 分钟），将 Gemini 3.1 Pro 的有效 Elo 评级提升了 +405 分。+405 Elo 是巨大的跃升——将特级大师级别的 Gemini 提升到可与人类世界顶尖竞技选手竞争的级别。

在多领域 HLE 基准测试中，提升主要集中在客观可验证领域（数学、编程），但在主观领域（创意写作、观点表达）出现了相反趋势——这表明 Bradley-Terry 仅在存在明确「更优答案」信号的场景下有效。

CF-73 数据集带来了什么？

团队发布了 CF-73——包含 73 道经专家评分的 Codeforces 题目的精选数据集，附有特级大师标注。CF-73 作为公开评估资源，供未来推理研究使用，有助于在基准测试快速过时的领域标准化测量协议。

该框架无需重新调优即可在不同模型变体间迁移——使其成为任何前沿推理系统的「模型无关」补充。该方案与 SU-01（arXiv:2605.13301，5 月 13 日）的奥林匹克竞赛金牌级推理形成直接竞争，但路径不同：SU-01 训练专用模型，OpenDeepThink 使用通用 LLM 配合更智能的推理循环。

常见问题

在并行推理背景下，Bradley-Terry 聚合是什么？

Bradley-Terry 是一种用于逐对比较的统计模型；OpenDeepThink 用它替代逐点 LLM 评判——LLM 对候选对进行裁判，票数通过 Bradley-Terry 统计模型聚合为全局排名，排名靠前的候选方案被保留并通过自然语言批评进行变异。

CF-73 数据集是什么？

CF-73 是包含 73 道经专家评分的 Codeforces 题目的精选数据集，附有特级大师标注，OpenDeepThink 团队将其作为公开评估资源发布，供未来推理研究使用。

arXiv:2605.15177 OpenDeepThink: 基于 Bradley-Terry 聚合的并行推理使 Gemini 3.1 Pro 在 Codeforces 上提升 +405 Elo

并行推理中的选择瓶颈是什么？

Bradley-Terry 生成循环如何运作？

论文具体展示了哪些数据？

CF-73 数据集带来了什么？

常见问题

来源

相关新闻