🟡 🤖 模型 2026年5月9日星期六 · 1 分钟阅读 ·

Allen Institute: EMO——具备数据驱动语义模块化的MoE语言模型

编辑插图:专家按语义域分组的MoE语言模型架构图

EMO是Allen Institute发布的新MoE语言模型,拥有10亿活跃参数和140亿总参数,在1万亿token上训练。专家自发组织成语义域——仅使用25%活跃专家时性能损失仅1%。

🤖

本文由人工智能基于一手来源生成。

Allen Institute for AI(Ai2)于2026年5月8日发布了EMO——一种稀疏混合专家(MoE)语言模型,无需人工标注即可在专家之间形成自然语义模块化。该模型拥有10亿活跃参数和140亿总参数,128个专家中每个token激活8个,在1万亿token上训练完成。

EMO如何实现涌现模块化?

EMO将文档边界作为弱监督信号:同一文档内所有token必须从共享池中选择活跃专家。这一简单约束足以让专家在训练过程中自发组织成可选择性使用和组合的连贯群组。MoE(混合专家)是一种架构,每个token只激活所有可用专家网络的一个子集,从而以较低的计算成本实现较大的模型容量。

剪枝实验显示了什么结果?

当仅激活25%的专家(128个中的32个)时,EMO的绝对性能仅下降约1%;而使用12.5%的专家(128个中的16个)时,性能下降约3%。在相同条件下,标准MoE模型会显著退化,这表明EMO拥有功能上独立的专家子集,分别覆盖不同的主题领域。

专家形成了哪些领域聚类?

专家激活可视化显示出对应语义域的聚类:「健康、医学与健康」、「新闻报道」、「美国政治与选举」、「电影与音乐」。相比之下,标准MoE按表层句法分组——介词、冠词和标点符号分散在各个聚类中。

哪些资源已公开发布?

Ai2已在Hugging Face上发布了完整EMO模型和对比用标准MoE基线,在GitHub上发布了训练代码,并提供了交互式可视化工具(emovisualization.netlify.app),支持实时探索各域的专家激活情况。

常见问题

EMO是什么?与标准MoE模型有何不同?
EMO是一种稀疏混合专家(Mixture-of-Experts)语言模型,无需人工标注即可形成语义模块化——专家会围绕医学或政治等领域自然聚类,而标准MoE模型仅按表层句法对token进行分组。
EMO有多少参数和专家?
模型共有140亿总参数,其中10亿为活跃参数,设有128个专家,每个token激活其中8个。在1万亿token上训练完成。
哪些资源已公开发布?
Ai2已在Hugging Face上发布完整EMO模型及对比标准MoE基线、GitHub上的训练代码,以及可在emovisualization.netlify.app上实时探索专家激活情况的交互式可视化工具。