DeepSpeed + Muon: 35% schnelleres Training, weniger Speicher

Der PyTorch Blog gab am 3. Juni 2026 bekannt, dass DeepSpeed volle Unterstützung für den Muon-Optimizer in hybrider Ausführung erhalten hat. Muon hält nur einen Momentum-Buffer pro Parameter, wodurch der Optimizer-Speicher um etwa 45% sinkt, und beim NanoGPT-Benchmark trainiert er 35% schneller als AdamW. Die Technik wird bereits von den Modellen Kimi-K2, GLM-5 und DeepSeek-V4 genutzt.

DeepSpeed hat volle Unterstützung für den Muon-Optimizer erhalten, gab der PyTorch Blog am 3. Juni 2026 bekannt. Muon ist ein Optimizer (ein Algorithmus zur Aktualisierung der Modellgewichte während des Trainings), der schnelleres Training bei deutlich geringerem Speicherverbrauch als das Standard-AdamW verspricht, und die Integration in DeepSpeed erleichtert seinen Einsatz bei Modellen großer Skala.

Was bringt der Muon-Optimizer?

Der zentrale Vorteil von Muon besteht darin, dass er nur einen Momentum-Buffer (einen Zwischenspeicher für akkumulierte Gradienten) pro Parameter hält, während AdamW zwei hält. Dadurch ist der vom Optimizer verbrauchte Speicher um etwa 45% kleiner. Beim Training großer Modelle ist der Speicher oft der Engpass, sodass diese Ersparnis direkt größere Modelle oder größere Batches auf derselben Hardware ermöglicht.

DeepSpeed wendet Muon nicht isoliert an, sondern in hybrider Ausführung. Muon wird für die 2D-Gewichte in den Attention- und MLP-Schichten verwendet, während für Embeddings und Normalisierungsschichten AdamW als Fallback übernimmt. Dieser Ansatz erhält die Stabilität bei den Schichten, für die Muon ungeeignet ist, und erzielt Einsparungen dort, wo es am wirksamsten ist.

Wie viel schneller ist Muon als AdamW?

Beim NanoGPT-Benchmark trainiert Muon 35% schneller als AdamW. Darüber hinaus erreicht er die Leistung des Modells GPT-2 XL etwa 25% früher als AdamW, was bedeutet, dass er die gleiche Qualität mit weniger Trainingsschritten erreicht. Ein schnellerer Weg zum Ziel und ein geringerer Speicherverbrauch reduzieren zusammen sowohl die Zeit als auch die Kosten des Trainings.

Diese Zahlen beziehen sich auf einen Referenz-Benchmark, aber die Richtung ist klar: Muon bietet einen konkreten Effizienzvorteil und nicht nur einen theoretischen.

Wie schneidet Muon beim Fine-Tuning ab?

Beim Fine-Tuning des Modells Moonlight-16B-A3B, das eine MoE-Architektur hat (Mixture of Experts, ein Modell mit mehreren spezialisierten Teilnetzen), übertrifft Muon AdamW bei drei von vier gemessenen Metriken. Bei MMLU erreicht es 0,678 gegenüber 0,660, bei MBPP+ 0,548 gegenüber 0,534 und bei GSM8K 0,810 gegenüber 0,805. Die Unterschiede sind moderat, aber konsistent zugunsten von Muon.

Der Speichervorteil wurde auch in der Praxis bestätigt: Beim Modell Qwen2.5-3B wurde eine Ersparnis von 9%, also etwa 3 GiB, gemessen. Damit wird bestätigt, dass die angegebene Ersparnis nicht nur theoretisch, sondern an konkreten Modellen messbar ist.

Wer nutzt Muon bereits?

Muon ist kein Experiment, sondern ein bewährter Optimizer im Training von Modellen der größten Skala. Er wird bereits von Kimi-K2 mit einer Billion (1T) Parametern, GLM-5 mit 744 Milliarden Parametern und DeepSeek-V4 mit 1,6 Billionen (1,6T) Parametern genutzt. Die Tatsache, dass Modelle dieses Umfangs ihn übernommen haben, ist ein starkes Signal für seine Zuverlässigkeit.

Mit der Aufnahme in DeepSpeed, eines der am weitesten verbreiteten Frameworks für das Training großer Modelle, wird Muon einem breiteren Kreis von Forschern und Teams zugänglich, die Kosten senken und das Training ohne Qualitätsverlust beschleunigen wollen.

Häufig gestellte Fragen

Wie sehr beschleunigt Muon das Training im Vergleich zu AdamW?

Beim NanoGPT-Benchmark trainiert Muon 35% schneller als AdamW und erreicht die GPT-2-XL-Leistung etwa 25% früher. Die Ersparnis kommt auch durch den geringeren Speicherverbrauch zustande, da Muon nur einen Momentum-Buffer pro Parameter hält.

Warum verbraucht Muon weniger Speicher als AdamW?

Muon hält nur einen Momentum-Buffer (einen Zwischenspeicher für akkumulierte Gradienten) pro Parameter, während AdamW zwei hält. Dadurch ist der Optimizer-Speicher um etwa 45% kleiner, und beim Modell Qwen2.5-3B wurde eine Ersparnis von 9%, also etwa 3 GiB, gemessen.

Wie kombiniert DeepSpeed Muon und AdamW?

DeepSpeed nutzt einen hybriden Ansatz: Muon wird auf die 2D-Gewichte der Attention- und MLP-Schichten angewendet, während es für Embeddings und Normalisierungsschichten AdamW als Fallback verwendet. So entsteht eine Speicherersparnis ohne Stabilitätsverlust bei den Schichten, für die Muon ungeeignet ist.

Welche großen Modelle nutzen Muon bereits?

Muon ist bereits in mehreren großen Modellen im Einsatz: Kimi-K2 (1 Billion Parameter), GLM-5 (744 Milliarden) und DeepSeek-V4 (1,6 Billionen). Das zeigt, dass der Optimizer im Training von Modellen der größten Skala bewährt ist.

DeepSpeed erhält Muon-Optimizer: 35% schnelleres Training bei weniger Speicher

Was bringt der Muon-Optimizer?

Wie viel schneller ist Muon als AdamW?

Wie schneidet Muon beim Fine-Tuning ab?

Wer nutzt Muon bereits?

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten