DeepSpeed が Muon オプティマイザを搭載:35% 高速な学習とメモリ削減
PyTorch Blog は2026年6月3日、DeepSpeed が Muon オプティマイザのハイブリッド実装での完全サポートを得たと発表した。Muon はパラメータあたり1つのモメンタムバッファのみを保持するため、オプティマイザのメモリを約45% 削減し、NanoGPT ベンチマークで AdamW より35% 高速に学習する。この技術はすでに Kimi-K2、GLM-5、DeepSeek-V4 で利用されている。
この記事はAIにより一次情報源から生成されました。
DeepSpeed が Muon オプティマイザの完全サポートを得たと、PyTorch Blog が2026年6月3日に発表した。Muon は、標準的な AdamW よりはるかに少ないメモリ消費で高速な学習を約束するオプティマイザ(学習中にモデルの重みを更新するアルゴリズム)であり、DeepSpeed への統合は大規模なモデルへの適用を容易にする。
Muon オプティマイザは何をもたらすのか?
Muon の主要な利点は、パラメータあたり1つのモメンタムバッファ(蓄積された勾配のバッファ)のみを保持するのに対し、AdamW は2つ保持する点にある。そのため、オプティマイザが消費するメモリは約45% 少ない。大規模モデルの学習ではメモリがしばしばボトルネックになるため、この節約は同じハードウェアでより大きなモデルやより大きなバッチを直接可能にする。
DeepSpeed は Muon を単独でではなく、ハイブリッド実装で適用する。Muon は attention 層と MLP 層の2D の重みに用いられ、埋め込み層と正規化層には AdamW をフォールバックとして引き継ぐ。このアプローチは Muon が適さない層での安定性を保ちつつ、最も効果的な場所で節約を実現する。
Muon は AdamW よりどれだけ高速なのか?
NanoGPT ベンチマークで、Muon は AdamW より35% 高速に学習する。さらに、GPT-2 XL モデルの性能に AdamW より約25% 早く到達する。これは、同じ品質に到達するまでに必要な学習ステップが少ないことを意味する。目標へのより速い道のりと、より少ないメモリ消費が相まって、学習の時間とコストの両方を削減する。
これらの数値は参照ベンチマークに関するものだが、方向性は明確である。Muon は単なる理論的なものではなく、効率における具体的な利点を提供する。
ファインチューニングで Muon はどう振る舞うのか?
MoE アーキテクチャ(Mixture of Experts、複数の専門化されたサブネットワークを持つモデル)の Moonlight-16B-A3B モデルのファインチューニングでは、Muon は測定された4つの指標のうち3つで AdamW を上回る。MMLU では 0.678 対 0.660、MBPP+ では 0.548 対 0.534、GSM8K では 0.810 対 0.805 である。差は緩やかだが、一貫して Muon に有利である。
メモリの優位性も実践で確認された。Qwen2.5-3B モデルでは9%、すなわち約3 GiB の節約が測定された。これにより、宣言された節約が単なる理論的なものではなく、具体的なモデルで測定可能であることが裏付けられる。
誰がすでに Muon を使用しているのか?
Muon は実験ではなく、最大規模のモデルの学習で実証済みのオプティマイザである。すでに1兆(1T)パラメータの Kimi-K2、7440億パラメータの GLM-5、1.6兆(1.6T)パラメータの DeepSeek-V4 が使用している。この規模のモデルがそれを採用したという事実は、その信頼性の強力なシグナルである。
大規模モデルの学習で最も広く使われている枠組みの一つである DeepSpeed への到来により、Muon は、品質を損なうことなくコストを削減し学習を高速化したい、より広範な研究者やチームにとって利用可能になる。
よくある質問
- Muon は AdamW と比べて学習をどれだけ高速化しますか?
- NanoGPT ベンチマークで、Muon は AdamW より35% 高速に学習し、GPT-2 XL の性能に約25% 早く到達します。この節約は、Muon がパラメータあたり1つのモメンタムバッファのみを保持するため、メモリ消費の低減からも生じます。
- なぜ Muon は AdamW よりメモリ消費が少ないのですか?
- Muon はパラメータあたり1つのモメンタムバッファ(蓄積された勾配のバッファ)のみを保持しますが、AdamW は2つ保持します。そのためオプティマイザのメモリは約45% 少なく、Qwen2.5-3B モデルでは9%、すなわち約3 GiB の節約が測定されました。
- DeepSpeed は Muon と AdamW をどのように組み合わせますか?
- DeepSpeed はハイブリッドアプローチを用います。Muon は attention 層と MLP 層の2D の重みに適用され、埋め込み層と正規化層には AdamW をフォールバックとして用います。これにより、Muon が適さない層での安定性を損なうことなくメモリ節約を得られます。
- どの大規模モデルがすでに Muon を使用していますか?
- Muon はすでにいくつかの大規模モデルで使用されています。Kimi-K2(1兆パラメータ)、GLM-5(7440億)、DeepSeek-V4(1.6兆)です。これは、このオプティマイザが最大規模のモデルの学習で実証済みであることを示しています。