全部 🤖 模型 🚀 创业公司 📦 开源 ⚖️ 监管 🤝 智能体 🔧 硬件 🏥 实践应用 💬 社区 🛡️ 安全 ✨ 趣闻

🟡 🤖 模型 2026年4月11日星期六 · 2 分钟阅读

ArXiv SUPERNOVA：基于自然指令的强化学习将推理能力提升 52.8%

为什么重要

新论文 SUPERNOVA 表明，对现有指令调优数据集的系统性整理可以显著提升 LLM 的推理能力。在 SUPERNOVA 上训练的模型在 BBEH 基准上实现了高达 52.8% 的相对改进。

利用现有数据实现更好的推理

研究人员发布了 SUPERNOVA —— 一个框架，展示了现有指令调优数据集包含”丰富的推理模式”，可以系统性地适配用于强化学习。结果：与 Qwen3.5 等强基线相比，在 BBEH 基准上相对改进 高达 52.8%。

为什么这很重要？

目前提升 LLM 推理能力有两种方法：

合成数据生成 —— 生成新样例并在其上训练（昂贵）
人工整理数据 —— 专家编写新样例（昂贵且缓慢）

SUPERNOVA 展示了 第三条路径：利用你已有的数据（指令调优集），但系统地将其准备用于带有可验证奖励的强化学习。这要便宜得多，也快得多。

方法论

作者进行了超过 100 次对照实验，分析三个关键因素：

源任务选择 —— 哪些任务最能将知识迁移到目标领域
任务混合策略 —— 训练数据的最佳组合
合成干预 —— 针对性修改以提高数据质量

关键发现：按个别目标性能选择任务优于使用平均值的策略。换句话说，不要追求”平衡”的方法 —— 选择具体有助于你目标的任务。

性能

在多个具有挑战性的基准上进行了测试：

BBEH —— 复杂的多步推理
Zebralogic —— 逻辑推理
MMLU-Pro —— 跨领域的扩展知识

代码和数据已在 GitHub 上公开，这意味着其他研究小组可以复现并在此基础上构建。

更广泛的影响

“利用现有资源，不创造新资源”的趋势对 AI 研究的民主化很重要。你不需要 OpenAI 或 Anthropic 那样的十亿美元预算 —— 你可以使用 HuggingFace 和其他平台上已经存在的数据集显著提升推理能力。

对于小型 AI 实验室和开源项目来说，SUPERNOVA 方法可能是将他们拉近前沿模型性能的关键。

🤖 本文由人工智能基于一手来源生成。

来源

ArXiv：SUPERNOVA — Eliciting General Reasoning in LLMs with Reinforcement Learning on Natural Instructions ↗

分享: 𝕏 X in LinkedIn f Facebook

相关新闻

🟡 2026-04-14

ArXiv：过程奖励智能体——实时反馈无需重新训练即可改善AI医学推理

🟡 2026-04-13

ArXiv PRA：4B模型在医学基准测试中达到80.8%——小规模模型的新SOTA

🟡 2026-04-13

ArXiv SPPO：序列级PPO解决了长推理链中的信用分配问题

← 返回首页