🟡 🤖 模型 发布于: · 2 分钟阅读 ·

arXiv:2606.24014: 健康领域RL训练将对齐能力迁移至80%以上的OOD基准

arXiv:2606.24014 ↗

编辑插图:神经网络连接跨多个领域分叉,对齐迁移箭头,抽象科学可视化

Google Research研究人员表明,针对真实性、公平性和可纠正性等有益特征进行RL训练,可在50余个独立OOD基准中超过80%的基准上取得提升——包括训练领域以外的其他领域。

🤖

本文由人工智能基于一手来源生成。

什么是对齐迁移,为何重要?

对齐迁移是指模型将在一个领域(如医疗健康)中学到的有益特征应用于完全不同的情境,而无需额外训练的能力。Google Research发表了论文《面向广泛且持续有益模型的强化学习》(作者:Akshay V. Jagadeesh、Rahul K. Arora、Khaled Saab等),表明这种迁移是可行的,且可在大规模范围内被度量。

RL训练是如何进行的?

研究人员构建了衡量四种有益特征的数据集:真实性(truthfulness)、公平性(fairness)、风险意识和可纠正性(corrigibility——模型被修正或停止的能力)。训练主要在医疗健康、科学和教育领域进行。核心结果:在超过50个独立OOD基准中,**超过80%**的基准上记录到了性能提升——也就是说,在训练领域以外的评估中也有进步。与传统方法(每个应用场景单独对齐)不同,该模型通过一次训练实现了泛化。

在实践中意味着什么?

采用此方法训练的模型对对抗性提示——试图引导模型产生有害输出的用户行为——以及有害微调攻击(攻击者试图事后使模型产生有害行为)表现出更强的抵抗力。同时,该方法减少了奖励欺骗现象——即模型在没有真正学习到期望行为的情况下优化奖励指标的问题。具体而言,健康领域RL带来了「在非健康对齐评估上的广泛提升」——这表明特定领域的训练并非信息孤岛。

为什么这是一个突破?

以往的模型需要针对每个应用场景单独对齐。这项研究表明有益行为是可迁移的——就像在医学中养成职业道德习惯的医生,同样会将这些原则应用于商业决策。论文于2026年6月22日提交,并提出了一个问题:精心设计的单次RL训练阶段是否将成为每个大型模型流水线的标准组件。

常见问题

在AI对齐背景下,OOD意味着什么?
OOD(分布外)是指模型在训练中未曾见过的基准或领域——这是对泛化能力的真正考验,因为模型必须在全新情境中应用所学原则。
对齐迁移能否替代针对每个领域的单独训练?
不能完全替代,但结果表明健康领域RL在非健康领域评估上也带来提升,说明有益特征具有普遍效果,而非仅限于特定领域。