arXiv:2605.15177 OpenDeepThink: 基于 Bradley-Terry 聚合的并行推理使 Gemini 3.1 Pro 在 Codeforces 上提升 +405 Elo
OpenDeepThink 是由 Shang Zhou 及合作者于 2026 年 5 月 14 日在 arXiv 上发布的新型基于种群的测试时计算扩展方法。该框架并行采样多个推理候选方案,通过逐对 Bradley-Terry 比较(而非逐点 LLM 评判)选出最佳结果。结果:Gemini 3.1 Pro 经过 8 轮序列 LLM 调用(约 27 分钟),在 Codeforces 基准测试中获得 +405 Elo 提升。团队还发布了包含 73 道专家评分 Codeforces 题目的 CF-73 数据集。
本文由人工智能基于一手来源生成。
Shang Zhou、Wenhao Chai、Kaiyuan Liu、Huanzhi Mao、Qiuyang Mang 和 Jingbo Shang 于 2026 年 5 月 14 日发表论文,解决了并行推理扩展中最为人熟知的问题之一:在没有真值验证器的情况下,如何从并行候选方案中可靠地选出最佳答案。
并行推理中的选择瓶颈是什么?
测试时计算扩展越来越多地采用并行采样——模型生成 N 个候选方案,系统选出最佳。问题在于选择:没有真值验证器,逐点 LLM 评判**「噪声大且存在偏差」**——模型在评估自身输出时并不可靠。OpenDeepThink 提出了不同的解决方案:通过 Bradley-Terry 聚合进行逐对比较。
Bradley-Terry 生成循环如何运作?
系统按代运行,共八个步骤:
- 随机配对 — LLM 对随机配对的候选方案进行裁判
- Bradley-Terry 聚合 — 票数通过 Bradley-Terry 统计模型转化为全局排名
- 选择 — 保留排名靠前的候选方案
- 变异 — 前四分之三通过从比较中得出的自然语言批评进行修改
- 淘汰 — 丢弃后四分之一
- 循环重复 8 轮(约 27 分钟)
该方案受进化算法启发——种群跨代延续,但以基于 LLM 的逐对偏好学习替代生物适应度函数。
论文具体展示了哪些数据?
最重要的指标:在 Codeforces 基准测试中,OpenDeepThink 经过 8 轮序列 LLM 调用(约 27 分钟),将 Gemini 3.1 Pro 的有效 Elo 评级提升了 +405 分。+405 Elo 是巨大的跃升——将特级大师级别的 Gemini 提升到可与人类世界顶尖竞技选手竞争的级别。
在多领域 HLE 基准测试中,提升主要集中在客观可验证领域(数学、编程),但在主观领域(创意写作、观点表达)出现了相反趋势——这表明 Bradley-Terry 仅在存在明确「更优答案」信号的场景下有效。
CF-73 数据集带来了什么?
团队发布了 CF-73——包含 73 道经专家评分的 Codeforces 题目的精选数据集,附有特级大师标注。CF-73 作为公开评估资源,供未来推理研究使用,有助于在基准测试快速过时的领域标准化测量协议。
该框架无需重新调优即可在不同模型变体间迁移——使其成为任何前沿推理系统的「模型无关」补充。该方案与 SU-01(arXiv:2605.13301,5 月 13 日)的奥林匹克竞赛金牌级推理形成直接竞争,但路径不同:SU-01 训练专用模型,OpenDeepThink 使用通用 LLM 配合更智能的推理循环。
常见问题
- 在并行推理背景下,Bradley-Terry 聚合是什么?
- Bradley-Terry 是一种用于逐对比较的统计模型;OpenDeepThink 用它替代逐点 LLM 评判——LLM 对候选对进行裁判,票数通过 Bradley-Terry 统计模型聚合为全局排名,排名靠前的候选方案被保留并通过自然语言批评进行变异。
- CF-73 数据集是什么?
- CF-73 是包含 73 道经专家评分的 Codeforces 题目的精选数据集,附有特级大师标注,OpenDeepThink 团队将其作为公开评估资源发布,供未来推理研究使用。