Allen Institute BAR：模块化MoE后训练方法

BAR（Branch-Adapt-Route）是Allen Institute for AI提出的一种新型模块化后训练方法，支持独立训练各领域专家——数学、代码、工具使用、安全——并将其融合为统一的专家混合模型。在OLMo 2 7B上的结果：平均得分49.1，数学提升7.8分，代码提升4.7分，优于基准重训练。

什么是BAR，它如何工作？

Allen Institute for AI于2026年4月20日发布了BAR（Branch-Adapt-Route），这是一种新型模块化语言模型后训练方法。不同于传统的单体式方法——即让单一模型经历一个大型后训练流水线——BAR支持独立训练多个专业化专家：

数学
代码
工具使用（调用外部工具）
安全

每位专家在各自的领域中单独训练，然后通过路由机制合并为一个统一的**专家混合（MoE）**模型。MoE架构意味着模型拥有多个专业化子模型，路由器针对每个查询决定由哪位专家响应。

BAR能提升多少性能？

在Allen Institute的开放模型OLMo 2 7B上，通过19个基准测试的结果：

平均得分49.1（对比单体式重训练基准的47.8）
数学提升**+7.8分**
代码提升**+4.7分**

平均1.3分的差距听起来可能不大，但在数学和代码等特定领域，5-8分的提升是显著的——尤其是在其他领域没有下降的前提下实现的。

为何模块化比基准更重要？

BAR真正的突破不在于基准分数，而在于增量改进的可能性。在传统方法中，每一次重大改进都意味着完整的重训练——重新启动昂贵的后训练流程。而在BAR中，单个专家可以替换或升级，而不会影响系统其余部分：

替换代码专家为新的、更优的版本：代码提升**+16.5分**
为数学专家添加强化学习（RL）：数学提升**+13分**

这种方法让人联想到软件开发的方式——模块化服务独立升级——而不是对整个系统进行单体式重建。

它如何解决灾难性遗忘问题？

AI研究中最大的问题之一是灾难性遗忘：新知识会”抹去”旧知识。如果你为数学对模型进行微调，其他领域（如诗歌、对话、代码）的能力很可能会受损。这使得增量改进变得有风险。

BAR通过专家隔离优雅地解决了这一问题——每位专家在自己的领域中训练时，不会触及其他专家的权重。路由器只学习何时使用哪位专家。因此可以不断增加专业化能力，而无需担心退化。

对开源社区的影响

对于开放模型，BAR开启了一个非常重要的可能性——分布式开发。不同的研究团队可以贡献不同的专家，这些专家随后被合并到共享模型中。这种方法可能会大幅加速开源模型的演进。

实际上，BAR的作者建议采用一种模式，其中”基础”模型长期保持稳定，改进通过发布新专家来实现。这可能会改变开源AI社区的协作方式——从”谁有最好的7B模型”，转变为”谁的数学专家目前最强”。

Allen Institute由此巩固了其作为开放AI研究最重要参与者之一的地位，并将完整的方法论和专家权重全部公开发布。

常见问题

什么是专家混合（MoE）？

专家混合（MoE）是一种模型架构，其中包含多个专业化的子模型（"专家"）和一个路由组件，负责针对每个输入决定由哪位专家响应。这样模型在容量上可以很大，但每次查询只激活部分参数，从而节省计算资源。

什么是"灾难性遗忘"，BAR如何解决？

灾难性遗忘是指模型在新训练后"忘记"旧知识——提升了数学能力，却损害了代码能力。BAR通过让每位专家在各自的领域中隔离训练来解决这一问题，通过路由器合并意味着添加新专家不会影响现有专家。

现有模型能利用BAR吗？

演示基于Allen Institute的开放模型OLMo 2 7B。方法论本身适用于任何Transformer模型，但需要并行训练多个专家的资源。对于开源社区来说，这是个重大进展——它支持不同团队贡献不同专家的分布式模型开发。

Allen Institute BAR：模块化后训练与专家混合架构在OLMo 2 7B上数学提升7.8分