Marco-MoE：开源多语言MoE，5%激活，5T令牌

Marco-MoE是由Jiang、Zhao等人于2026年4月28日发布的新型开源稀疏混合专家模型系列。模型每个令牌仅激活约5%的总参数，通过从密集模型升级改造在5万亿令牌上训练，Instruct版本超越激活参数量多3至14倍的密集竞争对手。权重、数据集和训练方案均已公开发布。

八位研究人员（Fan Jiang、Yu Zhao、Chenyang Lyu、Tianqi Shi、Yichao Du、Feihu Jiang、Longyue Wang、Weihua Luo）于2026年4月28日发布了预印本Marco-MoE：高效升级改造的开源多语言混合专家语言模型。这是极少数完全开放的MoE模型之一——包括训练数据集、方案和权重。

什么是稀疏MoE？

混合专家（MoE）是一种模型包含多个”专家”——并行MLP模块——的架构，路由器在每个令牌时仅激活其中少数几个。Marco-MoE采用极度稀疏设计，每个输入令牌仅激活约5%的总参数，这使得在不按比例增加推理成本的情况下高效扩展总容量成为可能。

升级改造作为训练方案

作者并非从头训练，而是使用升级改造：将现有密集模型通过复制MLP层作为专家并添加路由网络转换为MoE架构。此后进行5万亿令牌的额外预训练。用作种子的密集模型在摘要中未明确说明，但这一方法已在先前研究（Mixtral、Qwen-MoE）中被证明有效。

经过后训练的Marco-MoE-Instruct变体，在英语和多语言基准测试中超越了激活参数量多3至14倍的模型。具体参数数量（例如7B激活，56B总计）在获取的摘要中未注明。

语言特性分析

分析中最有趣的部分：Marco-MoE为相近语言学习了共享的结构化专家激活模式，而语言隔离的语言则获得高度专业化的专家。作者证明这实现了可扩展的语言扩展而不产生干扰——这对于密集模型而言是重要的操作特性。

为何此次发布重要？

中国团队（Qwen、DeepSeek、Yi）在2025-2026年引领开源权重模型，但鲜有团队发布完整技术栈——权重、数据集和训练方案。Marco-MoE属于这类完全开放的罕见案例，使研究社区能够独立复现并构建衍生模型。

常见问题

什么是MoE模型的“升级改造”？

一种将现有密集模型转换为MoE架构的技术，通过复制MLP层作为专家并添加路由网络来实现。由于无需从头训练MoE，节省了计算资源，同时继承了密集模型的成果。

公开发布了哪些内容？

完整的训练数据集、训练方案（流程和超参数）以及基础版和Instruct版的模型权重。这使得独立复现和针对特定领域的微调成为可能。

语言特性如何？

分析表明，Marco-MoE为相近语言学习了共享的结构化专家激活模式，而语言隔离的语言则获得高度专业化的专家。这实现了可扩展的语言扩展，避免了密集模型中常见的干扰问题。

Marco-MoE：开源多语言MoE模型仅激活5%参数，超越激活参数量多3-14倍的密集模型

什么是稀疏MoE？

升级改造作为训练方案

语言特性分析

为何此次发布重要？

常见问题

来源

相关新闻