混合专家模型 (MoE)

**混合专家模型（MoE，Mixture of Experts）**包含大量「专家」子网络，以及一个学习型路由器，用于选择哪些专家来处理每个词元。对于给定的输入，通常只有少数专家被激活（如 8 选 2、64 选 8 等），其余专家保持休眠。该模型拥有超大密集模型的参数规模与容量，但推理计算成本却接近更小的模型。

其重要性在于：扩展密集Transformer存在瓶颈——模型越大，运行成本越高昂。MoE 打破了总参数量与每个词元的激活参数量之间的强绑定关系，使模型容量的增长不再需要同比增加推理成本。

主要 MoE 模型：

Mixtral 8x7B 和 8x22B（Mistral AI，开放权重）
DeepSeek-V3 / DeepSeek-R1（总参数 6710 亿，激活约 370 亿）
Llama 4 系列（Meta，2025 年采用 MoE 架构）
GPT-4 / GPT-5 — 据推测为 MoE（官方未证实）
Qwen MoE 系列（阿里巴巴）

权衡之处：MoE 训练更为复杂（负载均衡、专家崩塌），推理服务器需要更高的峰值内存（所有专家必须同时加载），且并非所有工作负载都能从中受益。截至 2026 年，MoE 已成为顶级开放权重和闭源前沿模型的默认架构。

来源

另见