🟡 🏥 U praksi Objavljeno: · 2 min čitanja ·

DeepSpeed dobio Muon optimizer: 35% brže treniranje uz manje memorije

Urednička ilustracija: 35% brže treniranje uz manje memorije

PyTorch Blog je 3. lipnja 2026. objavio da je DeepSpeed dobio punu podršku za Muon optimizer u hibridnoj izvedbi. Muon drži samo jedan momentum buffer po parametru, čime memoriju optimizera smanjuje za oko 45%, a na NanoGPT benchmarku trenira 35% brže od AdamW. Tehniku već koriste modeli Kimi-K2, GLM-5 i DeepSeek-V4.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.

DeepSpeed je dobio punu podršku za Muon optimizer, objavio je PyTorch Blog 3. lipnja 2026. Muon je optimizer (algoritam za ažuriranje težina modela tijekom treniranja) koji obećava brže treniranje uz znatno manju potrošnju memorije od standardnog AdamW-a, a integracija u DeepSpeed olakšava njegovu primjenu na modelima velike skale.

Što donosi Muon optimizer?

Ključna prednost Muona je u tome što drži samo jedan momentum buffer (međuspremnik za akumulirane gradijente) po parametru, dok AdamW drži dva. Zbog toga je memorija koju troši optimizer manja za otprilike 45%. Kod treniranja velikih modela memorija je često usko grlo, pa ova ušteda izravno omogućuje veće modele ili veće batcheve na istom hardveru.

DeepSpeed Muon ne primjenjuje izolirano, nego u hibridnoj izvedbi. Muon se koristi za 2D težine u slojevima attention i MLP, dok za embeddinge i normalizacijske slojeve preuzima AdamW kao fallback. Taj pristup zadržava stabilnost na slojevima kojima Muon ne odgovara, a uštede ostvaruje ondje gdje je to najučinkovitije.

Koliko je Muon brži od AdamW?

Na NanoGPT benchmarku Muon trenira 35% brže od AdamW. Štoviše, dosegne performanse modela GPT-2 XL otprilike 25% ranije nego AdamW, što znači da do iste kvalitete dolazi uz manje koraka treniranja. Brži put do cilja i manja potrošnja memorije zajedno smanjuju i vrijeme i trošak treniranja.

Ove brojke odnose se na referentni benchmark, ali smjer je jasan: Muon nudi konkretnu prednost u učinkovitosti, a ne samo teorijsku.

Kako se Muon pokazuje u fine-tuningu?

Pri fine-tuningu modela Moonlight-16B-A3B, koji je MoE arhitekture (Mixture of Experts, model s više specijaliziranih podmreža), Muon nadmašuje AdamW na tri od četiri mjerene metrike. Na MMLU postiže 0,678 naspram 0,660, na MBPP+ 0,548 naspram 0,534, a na GSM8K 0,810 naspram 0,805. Razlike su umjerene, ali dosljedno u korist Muona.

Memorijska prednost potvrđena je i u praksi: na modelu Qwen2.5-3B izmjerena je ušteda od 9%, odnosno oko 3 GiB. Time se potvrđuje da deklarirana ušteda nije samo teorijska, nego mjerljiva na konkretnim modelima.

Tko već koristi Muon?

Muon nije eksperiment, nego dokazan optimizer u treniranju modela najveće skale. Već ga koriste Kimi-K2 s bilijun (1T) parametara, GLM-5 sa 744 milijarde parametara te DeepSeek-V4 sa 1,6 bilijuna (1,6T) parametara. Činjenica da su ga prihvatili modeli ovog opsega snažan je signal njegove pouzdanosti.

Dolaskom u DeepSpeed, jedan od najraširenijih okvira za treniranje velikih modela, Muon postaje dostupan širem krugu istraživača i timova koji žele smanjiti troškove i ubrzati treniranje bez gubitka kvalitete.

Česta pitanja

Koliko Muon ubrzava treniranje u odnosu na AdamW?
Na NanoGPT benchmarku Muon trenira 35% brže od AdamW i dosegne performanse GPT-2 XL otprilike 25% ranije. Ušteda dolazi i od manje potrošnje memorije, jer Muon drži samo jedan momentum buffer po parametru.
Zašto Muon troši manje memorije od AdamW?
Muon drži samo jedan momentum buffer (međuspremnik za akumulirane gradijente) po parametru, dok AdamW drži dva. Zbog toga je memorija optimizera manja za otprilike 45%, a na modelu Qwen2.5-3B izmjerena je ušteda od 9%, odnosno oko 3 GiB.
Kako DeepSpeed kombinira Muon i AdamW?
DeepSpeed koristi hibridni pristup: Muon se primjenjuje na 2D težine slojeva attention i MLP, dok za embeddinge i normalizacijske slojeve koristi AdamW kao fallback. Time se dobiva ušteda memorije bez gubitka stabilnosti na slojevima kojima Muon ne odgovara.
Koji veliki modeli već koriste Muon?
Muon je već u upotrebi kod nekoliko velikih modela: Kimi-K2 (1 bilijun parametara), GLM-5 (744 milijarde) i DeepSeek-V4 (1,6 bilijuna). To pokazuje da je optimizer dokazan u treniranju modela najveće skale.