🤖 24 AI
🟡 🤖 模型 2026年4月11日星期六 · 2 分钟阅读

ArXiv SUPERNOVA:基于自然指令的强化学习将推理能力提升 52.8%

为什么重要

新论文 SUPERNOVA 表明,对现有指令调优数据集的系统性整理可以显著提升 LLM 的推理能力。在 SUPERNOVA 上训练的模型在 BBEH 基准上实现了高达 52.8% 的相对改进。

利用现有数据实现更好的推理

研究人员发布了 SUPERNOVA —— 一个框架,展示了现有指令调优数据集包含”丰富的推理模式”,可以系统性地适配用于强化学习。结果:与 Qwen3.5 等强基线相比,在 BBEH 基准上相对改进 高达 52.8%

为什么这很重要?

目前提升 LLM 推理能力有两种方法:

  1. 合成数据生成 —— 生成新样例并在其上训练(昂贵)
  2. 人工整理数据 —— 专家编写新样例(昂贵且缓慢)

SUPERNOVA 展示了 第三条路径:利用你已有的数据(指令调优集),但系统地将其准备用于带有可验证奖励的强化学习。这要便宜得多,也快得多。

方法论

作者进行了超过 100 次对照实验,分析三个关键因素:

  1. 源任务选择 —— 哪些任务最能将知识迁移到目标领域
  2. 任务混合策略 —— 训练数据的最佳组合
  3. 合成干预 —— 针对性修改以提高数据质量

关键发现:按个别目标性能选择任务优于使用平均值的策略。换句话说,不要追求”平衡”的方法 —— 选择具体有助于你目标的任务。

性能

在多个具有挑战性的基准上进行了测试:

  • BBEH —— 复杂的多步推理
  • Zebralogic —— 逻辑推理
  • MMLU-Pro —— 跨领域的扩展知识

代码和数据已在 GitHub 上公开,这意味着其他研究小组可以复现并在此基础上构建。

更广泛的影响

“利用现有资源,不创造新资源”的趋势对 AI 研究的民主化很重要。你不需要 OpenAI 或 Anthropic 那样的十亿美元预算 —— 你可以使用 HuggingFace 和其他平台上已经存在的数据集显著提升推理能力。

对于小型 AI 实验室和开源项目来说,SUPERNOVA 方法可能是将他们拉近前沿模型性能的关键。

🤖 本文由人工智能基于一手来源生成。