Allen Institute BAR:模块化后训练与专家混合架构在OLMo 2 7B上数学提升7.8分
BAR(Branch-Adapt-Route)是Allen Institute for AI提出的一种新型模块化后训练方法,支持独立训练各领域专家——数学、代码、工具使用、安全——并将其融合为统一的专家混合模型。在OLMo 2 7B上的结果:平均得分49.1,数学提升7.8分,代码提升4.7分,优于基准重训练。
本文由人工智能基于一手来源生成。
什么是BAR,它如何工作?
Allen Institute for AI于2026年4月20日发布了BAR(Branch-Adapt-Route),这是一种新型模块化语言模型后训练方法。不同于传统的单体式方法——即让单一模型经历一个大型后训练流水线——BAR支持独立训练多个专业化专家:
- 数学
- 代码
- 工具使用(调用外部工具)
- 安全
每位专家在各自的领域中单独训练,然后通过路由机制合并为一个统一的**专家混合(MoE)**模型。MoE架构意味着模型拥有多个专业化子模型,路由器针对每个查询决定由哪位专家响应。
BAR能提升多少性能?
在Allen Institute的开放模型OLMo 2 7B上,通过19个基准测试的结果:
- 平均得分49.1(对比单体式重训练基准的47.8)
- 数学提升**+7.8分**
- 代码提升**+4.7分**
平均1.3分的差距听起来可能不大,但在数学和代码等特定领域,5-8分的提升是显著的——尤其是在其他领域没有下降的前提下实现的。
为何模块化比基准更重要?
BAR真正的突破不在于基准分数,而在于增量改进的可能性。在传统方法中,每一次重大改进都意味着完整的重训练——重新启动昂贵的后训练流程。而在BAR中,单个专家可以替换或升级,而不会影响系统其余部分:
- 替换代码专家为新的、更优的版本:代码提升**+16.5分**
- 为数学专家添加强化学习(RL):数学提升**+13分**
这种方法让人联想到软件开发的方式——模块化服务独立升级——而不是对整个系统进行单体式重建。
它如何解决灾难性遗忘问题?
AI研究中最大的问题之一是灾难性遗忘:新知识会”抹去”旧知识。如果你为数学对模型进行微调,其他领域(如诗歌、对话、代码)的能力很可能会受损。这使得增量改进变得有风险。
BAR通过专家隔离优雅地解决了这一问题——每位专家在自己的领域中训练时,不会触及其他专家的权重。路由器只学习何时使用哪位专家。因此可以不断增加专业化能力,而无需担心退化。
对开源社区的影响
对于开放模型,BAR开启了一个非常重要的可能性——分布式开发。不同的研究团队可以贡献不同的专家,这些专家随后被合并到共享模型中。这种方法可能会大幅加速开源模型的演进。
实际上,BAR的作者建议采用一种模式,其中”基础”模型长期保持稳定,改进通过发布新专家来实现。这可能会改变开源AI社区的协作方式——从”谁有最好的7B模型”,转变为”谁的数学专家目前最强”。
Allen Institute由此巩固了其作为开放AI研究最重要参与者之一的地位,并将完整的方法论和专家权重全部公开发布。
常见问题
- 什么是专家混合(MoE)?
- 专家混合(MoE)是一种模型架构,其中包含多个专业化的子模型("专家")和一个路由组件,负责针对每个输入决定由哪位专家响应。这样模型在容量上可以很大,但每次查询只激活部分参数,从而节省计算资源。
- 什么是"灾难性遗忘",BAR如何解决?
- 灾难性遗忘是指模型在新训练后"忘记"旧知识——提升了数学能力,却损害了代码能力。BAR通过让每位专家在各自的领域中隔离训练来解决这一问题,通过路由器合并意味着添加新专家不会影响现有专家。
- 现有模型能利用BAR吗?
- 演示基于Allen Institute的开放模型OLMo 2 7B。方法论本身适用于任何Transformer模型,但需要并行训练多个专家的资源。对于开源社区来说,这是个重大进展——它支持不同团队贡献不同专家的分布式模型开发。