DeepSpeed 获得 Muon 优化器:训练快 35% 且占用更少内存
PyTorch Blog 于 2026 年 6 月 3 日宣布 DeepSpeed 以混合实现获得了对 Muon 优化器的完整支持。Muon 每个参数只保留一个动量缓冲区,从而将优化器内存减少约 45%,在 NanoGPT 基准上比 AdamW 快 35% 训练。Kimi-K2、GLM-5 和 DeepSeek-V4 等模型已经在使用该技术。
本文由人工智能基于一手来源生成。
DeepSpeed 获得了对 Muon 优化器的完整支持,PyTorch Blog 于 2026 年 6 月 3 日宣布了这一点。Muon 是一种优化器(在训练期间更新模型权重的算法),它承诺以比标准 AdamW 明显更少的内存消耗实现更快的训练,而集成进 DeepSpeed 使其在大规模模型上的应用变得更容易。
Muon 优化器带来了什么?
Muon 的关键优势在于它每个参数只保留一个动量缓冲区(累积梯度的中间存储),而 AdamW 保留两个。因此优化器消耗的内存减少约 45%。在训练大型模型时,内存往往是瓶颈,因此这一节省直接使得在相同硬件上训练更大的模型或更大的批次成为可能。
DeepSpeed 并非孤立地应用 Muon,而是以混合实现使用它。Muon 用于 attention 层和 MLP 层中的 2D 权重,而对嵌入层和归一化层则采用 AdamW 作为后备。这种方法在 Muon 不适合的层上保持稳定性,并在最有效的地方实现节省。
Muon 比 AdamW 快多少?
在 NanoGPT 基准上,Muon 比 AdamW 快 35% 训练。更进一步,它比 AdamW 提前约 25% 达到 GPT-2 XL 模型的性能,这意味着它用更少的训练步骤就达到相同的质量。更快抵达目标加上更少的内存消耗,共同降低了训练的时间和成本。
这些数字针对的是参考基准,但方向很明确:Muon 提供的是具体的效率优势,而不仅仅是理论上的。
Muon 在微调中的表现如何?
在对 Moonlight-16B-A3B 模型(属于 MoE 架构,即 Mixture of Experts,含有多个专门化子网络的模型)进行微调时,Muon 在四项受测指标中的三项上超越 AdamW。在 MMLU 上达到 0.678 对 0.660,在 MBPP+ 上达到 0.548 对 0.534,在 GSM8K 上达到 0.810 对 0.805。差距适度,但一致地有利于 Muon。
内存优势在实践中也得到证实:在 Qwen2.5-3B 模型上测得节省 9%,约 3 GiB。这证实了所声明的节省不仅是理论上的,而且在具体模型上可测量。
谁已经在使用 Muon?
Muon 不是实验,而是在训练最大规模模型时已得到验证的优化器。Kimi-K2(1 万亿,1T 参数)、GLM-5(7440 亿参数)以及 DeepSeek-V4(1.6 万亿,1.6T 参数)都已在使用它。这一规模的模型采用了它,这一事实是其可靠性的有力信号。
随着进入 DeepSpeed——最广泛使用的大型模型训练框架之一——Muon 对更广泛的研究人员和团队变得可用,他们希望在不损失质量的前提下降低成本并加快训练。
常见问题
- 相比 AdamW,Muon 能将训练加速多少?
- 在 NanoGPT 基准上,Muon 比 AdamW 快 35% 训练,并提前约 25% 达到 GPT-2 XL 的性能。节省也来自更少的内存消耗,因为 Muon 每个参数只保留一个动量缓冲区。
- 为什么 Muon 比 AdamW 占用更少内存?
- Muon 每个参数只保留一个动量缓冲区(累积梯度的中间存储),而 AdamW 保留两个。因此优化器内存减少约 45%,在 Qwen2.5-3B 模型上测得节省 9%,约 3 GiB。
- DeepSpeed 如何结合 Muon 和 AdamW?
- DeepSpeed 采用混合方法:Muon 应用于 attention 层和 MLP 层的 2D 权重,而对嵌入层和归一化层使用 AdamW 作为后备。由此在不损失稳定性的前提下获得内存节省,因为后备适用于 Muon 不适合的层。
- 哪些大型模型已经在使用 Muon?
- Muon 已经在若干大型模型中投入使用:Kimi-K2(1 万亿参数)、GLM-5(7440 亿)和 DeepSeek-V4(1.6 万亿)。这表明该优化器在训练最大规模模型时已得到验证。