模型

混合专家模型 (MoE)

一种神经网络架构,通过学习型路由机制对每个输入仅激活少数专家子网络(MoE),从而在拥有超大参数规模与能力的同时,将推理计算成本控制在远低于等效密集模型的水平。

**混合专家模型(MoE,Mixture of Experts)**包含大量「专家」子网络,以及一个学习型路由器,用于选择哪些专家来处理每个词元。对于给定的输入,通常只有少数专家被激活(如 8 选 2、64 选 8 等),其余专家保持休眠。该模型拥有超大密集模型的参数规模与容量,但推理计算成本却接近更小的模型。

其重要性在于:扩展密集Transformer存在瓶颈——模型越大,运行成本越高昂。MoE 打破了总参数量与每个词元的激活参数量之间的强绑定关系,使模型容量的增长不再需要同比增加推理成本。

主要 MoE 模型:

  • Mixtral 8x7B 和 8x22B(Mistral AI,开放权重)
  • DeepSeek-V3 / DeepSeek-R1(总参数 6710 亿,激活约 370 亿)
  • Llama 4 系列(Meta,2025 年采用 MoE 架构)
  • GPT-4 / GPT-5 — 据推测为 MoE(官方未证实)
  • Qwen MoE 系列(阿里巴巴)

权衡之处:MoE 训练更为复杂(负载均衡、专家崩塌),推理服务器需要更高的峰值内存(所有专家必须同时加载),且并非所有工作负载都能从中受益。截至 2026 年,MoE 已成为顶级开放权重和闭源前沿模型的默认架构。

来源

另见