🟡 🏥 실무 게시일: · 2 분 읽기 ·

DeepSpeed가 Muon 옵티마이저를 도입: 메모리를 줄이며 35% 더 빠른 학습

편집 일러스트레이션: 메모리를 줄이며 35% 더 빠른 학습

PyTorch Blog는 2026년 6월 3일 DeepSpeed가 하이브리드 구현으로 Muon 옵티마이저를 완전 지원하게 되었다고 발표했다. Muon은 파라미터당 모멘텀 버퍼를 하나만 유지하여 옵티마이저 메모리를 약 45% 줄이며, NanoGPT 벤치마크에서 AdamW보다 35% 빠르게 학습한다. 이 기법은 이미 Kimi-K2, GLM-5, DeepSeek-V4 모델이 사용하고 있다.

🤖

이 기사는 AI가 1차 출처를 기반으로 생성했습니다.

DeepSpeed가 Muon 옵티마이저를 완전 지원하게 되었다고 PyTorch Blog가 2026년 6월 3일 발표했다. Muon은 표준 AdamW보다 훨씬 적은 메모리 소비로 더 빠른 학습을 약속하는 옵티마이저(학습 중 모델 가중치를 갱신하는 알고리즘)이며, DeepSpeed로의 통합은 대규모 모델에서의 적용을 용이하게 한다.

Muon 옵티마이저는 무엇을 가져오나요?

Muon의 핵심 장점은 파라미터당 모멘텀 버퍼(누적된 그래디언트를 위한 임시 저장소)를 하나만 유지하는 반면 AdamW는 둘을 유지한다는 데 있다. 그 결과 옵티마이저가 소비하는 메모리가 약 45% 줄어든다. 대규모 모델 학습에서 메모리는 흔히 병목이므로, 이 절감은 동일한 하드웨어에서 더 큰 모델이나 더 큰 배치를 직접적으로 가능하게 한다.

DeepSpeed는 Muon을 고립적으로 적용하지 않고 하이브리드 구현으로 적용한다. Muon은 attention과 MLP 레이어의 2D 가중치에 사용되며, 임베딩과 정규화 레이어에는 AdamW를 fallback으로 쓴다. 이 접근법은 Muon이 맞지 않는 레이어에서 안정성을 유지하면서, 가장 효과적인 곳에서 절감을 달성한다.

Muon은 AdamW보다 얼마나 빠른가요?

NanoGPT 벤치마크에서 Muon은 AdamW보다 35% 빠르게 학습한다. 더 나아가 GPT-2 XL 모델의 성능에 AdamW보다 약 25% 더 일찍 도달하는데, 이는 동일한 품질에 더 적은 학습 단계로 도달함을 의미한다. 목표까지의 더 빠른 경로와 더 적은 메모리 소비가 함께 학습의 시간과 비용을 모두 줄인다.

이 수치는 참조 벤치마크에 관한 것이지만, 방향은 분명하다. Muon은 단지 이론적인 것이 아니라 효율성에서 구체적인 이점을 제공한다.

Muon은 파인튜닝에서 어떻게 나타나나요?

MoE 아키텍처(Mixture of Experts, 여러 전문화된 하위 네트워크를 갖춘 모델)인 Moonlight-16B-A3B 모델의 파인튜닝에서, Muon은 측정된 네 개 지표 중 세 개에서 AdamW를 능가한다. MMLU에서는 0.678 대 0.660, MBPP+에서는 0.548 대 0.534, GSM8K에서는 0.810 대 0.805를 기록한다. 차이는 완만하지만 일관되게 Muon에 유리하다.

메모리 이점은 실무에서도 확인되었다. Qwen2.5-3B 모델에서 9%, 즉 약 3 GiB의 절감이 측정되었다. 이로써 선언된 절감이 단지 이론적인 것이 아니라 구체적인 모델에서 측정 가능함이 확인된다.

누가 이미 Muon을 사용하나요?

Muon은 실험이 아니라 최대 규모 모델 학습에서 입증된 옵티마이저다. 이미 1조(1T) 파라미터의 Kimi-K2, 7440억 파라미터의 GLM-5, 1조 6천억(1.6T) 파라미터의 DeepSeek-V4가 사용하고 있다. 이 규모의 모델들이 채택했다는 사실은 그 신뢰성의 강력한 신호다.

대규모 모델 학습을 위한 가장 널리 쓰이는 프레임워크 중 하나인 DeepSpeed에 도입됨으로써, Muon은 품질을 잃지 않으면서 비용을 줄이고 학습을 가속하려는 더 넓은 연구자와 팀에게 제공된다.

자주 묻는 질문

Muon은 AdamW에 비해 학습을 얼마나 가속하나요?
NanoGPT 벤치마크에서 Muon은 AdamW보다 35% 빠르게 학습하며 GPT-2 XL 성능에 약 25% 더 일찍 도달합니다. Muon이 파라미터당 모멘텀 버퍼를 하나만 유지하므로 메모리 소비가 줄어드는 데서도 절감이 발생합니다.
Muon이 AdamW보다 메모리를 덜 쓰는 이유는 무엇인가요?
Muon은 파라미터당 모멘텀 버퍼(누적된 그래디언트를 위한 임시 저장소)를 하나만 유지하는 반면 AdamW는 둘을 유지합니다. 그 결과 옵티마이저 메모리가 약 45% 줄며, Qwen2.5-3B 모델에서는 9%, 즉 약 3 GiB의 절감이 측정되었습니다.
DeepSpeed는 Muon과 AdamW를 어떻게 결합하나요?
DeepSpeed는 하이브리드 접근법을 사용합니다. Muon은 attention과 MLP 레이어의 2D 가중치에 적용하고, 임베딩과 정규화 레이어에는 AdamW를 fallback으로 사용합니다. 이로써 Muon이 맞지 않는 레이어에서 안정성을 잃지 않으면서 메모리를 절감합니다.
어떤 대형 모델들이 이미 Muon을 사용하나요?
Muon은 이미 여러 대형 모델에서 사용되고 있습니다. Kimi-K2(1조 파라미터), GLM-5(7440억), DeepSeek-V4(1조 6천억)입니다. 이는 이 옵티마이저가 최대 규모 모델 학습에서 입증되었음을 보여줍니다.