Marco-MoE:开源多语言MoE模型仅激活5%参数,超越激活参数量多3-14倍的密集模型
Marco-MoE是由Jiang、Zhao等人于2026年4月28日发布的新型开源稀疏混合专家模型系列。模型每个令牌仅激活约5%的总参数,通过从密集模型升级改造在5万亿令牌上训练,Instruct版本超越激活参数量多3至14倍的密集竞争对手。权重、数据集和训练方案均已公开发布。
八位研究人员(Fan Jiang、Yu Zhao、Chenyang Lyu、Tianqi Shi、Yichao Du、Feihu Jiang、Longyue Wang、Weihua Luo)于2026年4月28日发布了预印本Marco-MoE:高效升级改造的开源多语言混合专家语言模型。这是极少数完全开放的MoE模型之一——包括训练数据集、方案和权重。
什么是稀疏MoE?
混合专家(MoE)是一种模型包含多个”专家”——并行MLP模块——的架构,路由器在每个令牌时仅激活其中少数几个。Marco-MoE采用极度稀疏设计,每个输入令牌仅激活约5%的总参数,这使得在不按比例增加推理成本的情况下高效扩展总容量成为可能。
升级改造作为训练方案
作者并非从头训练,而是使用升级改造:将现有密集模型通过复制MLP层作为专家并添加路由网络转换为MoE架构。此后进行5万亿令牌的额外预训练。用作种子的密集模型在摘要中未明确说明,但这一方法已在先前研究(Mixtral、Qwen-MoE)中被证明有效。
经过后训练的Marco-MoE-Instruct变体,在英语和多语言基准测试中超越了激活参数量多3至14倍的模型。具体参数数量(例如7B激活,56B总计)在获取的摘要中未注明。
语言特性分析
分析中最有趣的部分:Marco-MoE为相近语言学习了共享的结构化专家激活模式,而语言隔离的语言则获得高度专业化的专家。作者证明这实现了可扩展的语言扩展而不产生干扰——这对于密集模型而言是重要的操作特性。
为何此次发布重要?
中国团队(Qwen、DeepSeek、Yi)在2025-2026年引领开源权重模型,但鲜有团队发布完整技术栈——权重、数据集和训练方案。Marco-MoE属于这类完全开放的罕见案例,使研究社区能够独立复现并构建衍生模型。
常见问题
- 什么是MoE模型的“升级改造”?
- 一种将现有密集模型转换为MoE架构的技术,通过复制MLP层作为专家并添加路由网络来实现。由于无需从头训练MoE,节省了计算资源,同时继承了密集模型的成果。
- 公开发布了哪些内容?
- 完整的训练数据集、训练方案(流程和超参数)以及基础版和Instruct版的模型权重。这使得独立复现和针对特定领域的微调成为可能。
- 语言特性如何?
- 分析表明,Marco-MoE为相近语言学习了共享的结构化专家激活模式,而语言隔离的语言则获得高度专业化的专家。这实现了可扩展的语言扩展,避免了密集模型中常见的干扰问题。
本文由人工智能基于一手来源生成。