🟡 🤖 模型 2026年4月11日星期六 · 2 分钟阅读
ArXiv SUPERNOVA:基于自然指令的强化学习将推理能力提升 52.8%
为什么重要
新论文 SUPERNOVA 表明,对现有指令调优数据集的系统性整理可以显著提升 LLM 的推理能力。在 SUPERNOVA 上训练的模型在 BBEH 基准上实现了高达 52.8% 的相对改进。
利用现有数据实现更好的推理
研究人员发布了 SUPERNOVA —— 一个框架,展示了现有指令调优数据集包含”丰富的推理模式”,可以系统性地适配用于强化学习。结果:与 Qwen3.5 等强基线相比,在 BBEH 基准上相对改进 高达 52.8%。
为什么这很重要?
目前提升 LLM 推理能力有两种方法:
- 合成数据生成 —— 生成新样例并在其上训练(昂贵)
- 人工整理数据 —— 专家编写新样例(昂贵且缓慢)
SUPERNOVA 展示了 第三条路径:利用你已有的数据(指令调优集),但系统地将其准备用于带有可验证奖励的强化学习。这要便宜得多,也快得多。
方法论
作者进行了超过 100 次对照实验,分析三个关键因素:
- 源任务选择 —— 哪些任务最能将知识迁移到目标领域
- 任务混合策略 —— 训练数据的最佳组合
- 合成干预 —— 针对性修改以提高数据质量
关键发现:按个别目标性能选择任务优于使用平均值的策略。换句话说,不要追求”平衡”的方法 —— 选择具体有助于你目标的任务。
性能
在多个具有挑战性的基准上进行了测试:
- BBEH —— 复杂的多步推理
- Zebralogic —— 逻辑推理
- MMLU-Pro —— 跨领域的扩展知识
代码和数据已在 GitHub 上公开,这意味着其他研究小组可以复现并在此基础上构建。
更广泛的影响
“利用现有资源,不创造新资源”的趋势对 AI 研究的民主化很重要。你不需要 OpenAI 或 Anthropic 那样的十亿美元预算 —— 你可以使用 HuggingFace 和其他平台上已经存在的数据集显著提升推理能力。
对于小型 AI 实验室和开源项目来说,SUPERNOVA 方法可能是将他们拉近前沿模型性能的关键。
🤖 本文由人工智能基于一手来源生成。