arXiv:2605.06660:VHG——用于生成困难数学题的验证器支持框架
VHG(验证器支持的困难题目生成)框架解决了为LLM训练创建有效、困难且原创数学题的难题。它在出题者-解题者对偶结构中引入了独立验证器——三方自博弈同时保证题目的有效性和难度。在积分学测试中,VHG显著优于所有基线方法。
本文由人工智能基于一手来源生成。
「Verifier-backed Hard Problem Generation」(Lai等人,arXiv:2605.06660)于2026年5月7日发布,解决了训练大型语言模型中的一个重要难题:如何自动生成新颖、有效且足够困难的数学题。来自牛津大学及合作方的团队证明,自博弈循环中的独立验证器能够防止困扰传统出题者-解题者方法的奖励黑客行为。
VHG解决了什么问题?
尽管LLM在解决数学题方面越来越出色,但它们本身无法可靠地生成有效、有挑战性且原创的题目。这种能力对于模型进步和自主科学发现至关重要。传统出题者-解题者系统受到奖励黑客行为的困扰:出题者可以通过生成定义不清或无法解答的题目来轻易最大化解题者的失败率。
带验证器的三方自博弈
VHG引入了第三个组件——独立验证器——使出题者的奖励同时取决于有效性(由验证器确认)和难度(由解题者失败率评估)。团队测试了两种验证器变体:硬性符号验证器(严格的数学验证器)和软性LLM验证器(更灵活的神经网络验证器)。两种变体都能有效抑制无效输出。
结果与意义
评估涵盖了不定积分问题和更广泛的数学推理。VHG「显著且清晰地超越了所有基线方法」,表明该方法并非针对单一领域。对于数学模型的强化学习训练,该框架为自主课程生成开辟了道路——模型可以自主创建难度递增的题目用于自身训练,无需人工筛选,这是实现超人类数学推理的前提条件。
常见问题
- 什么是出题者-解题者对偶结构?
- 出题者-解题者是一种自博弈架构,其中一个模型(出题者)生成题目,另一个(解题者)解答。出题者的奖励取决于题目难度。若缺乏控制,可能出现奖励黑客行为——生成无意义但「困难」的题目。
- 为什么需要验证器?
- 验证器保证生成的数学题是有效的(可解、唯一、定义明确)。没有验证器,出题者可能通过编写错误题目来轻易最大化解题者的失败率。VHG提供了硬性符号验证器和软性LLM验证器两种变体。
- 测试了哪些领域?
- 团队在不定积分问题(微积分)和更广泛的数学推理上评估了该框架。VHG「在两个领域均显著且清晰地超越了所有基线方法」,展示了该方法的可迁移性。