AdaMeZO: fino ugađanje LLM-ova Adam-stilom bez pohrane momenata u GPU memoriji
AdaMeZO je optimizator nultog reda koji kombinira prednosti Adam algoritma s memorijskom učinkovitošću MeZO pristupa za fino ugađanje velikih jezičnih modela. Koristi samo prosljeđivanja unaprijed i postiže do 70% manje prolaza u odnosu na MeZO, uz poboljšanu konvergenciju.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Istraživači Zhijie Cai, Haolong Chen i Guangxu Zhu predstavili su AdaMeZO, optimizator nultog reda (engl. zeroth-order optimizer) koji donosi prednosti popularnog Adam algoritma u fino ugađanje (engl. fine-tuning) velikih jezičnih modela — a da pritom ne zahtijeva pohanu momenata u GPU memoriji.
Zašto je GPU memorija usko grlo pri fino ugađanju LLM-ova?
Standardni Adam optimizator, koji se rutinski koristi za treniranje neuronskih mreža, prati dvije statistike za svaki parametar modela: prvi moment (pokretni prosjek gradijenata) i drugi moment (pokretni prosjek kvadrata gradijenata). Za modele s milijardama parametara to utrostručuje memorijske zahtjeve. MeZO, prethodni pristup koji koristi samo prosljeđivanja unaprijed bez izračuna pravih gradijenata, rješava memorijski problem — ali sporije konvergira jer nema adaptivnog prilagođavanja koraka učenja po parametru.
Kako AdaMeZO kombinira oba pristupa?
AdaMeZO procjenjuje Adamove momente bez njihove trajne pohrane: koristi nasumična perturbiranja težina i mjeri promjene u gubitku (loss) kako bi rekonstruirao adaptivno ponašanje momenata u letu, za svaki korak optimizacije posebno. Rezultat je optimizator koji se ponaša poput Adama — prilagođava korak učenja prema procijenjenoj geometriji površine gubitka — a memorijski otisak ostaje jednak MeZO pristupu.
Što pokazuju vizualizacije trajektorija?
Autori prikazuju vizualizacije trajektorija optimizacije na različitim površinama gubitka koje demonstriraju kako AdaMeZO adaptivno navigira ravnim i zakrivljenim dijelovima prostora parametara, za razliku od MeZO koji se ponaša uniformnije. Kvantitativno, AdaMeZO ostvaruje do 70% manje prosljeđivanja unaprijed (engl. forward passes) za postizanje iste razine performansi, uz poboljšanu konvergenciju u usporedbi s originalnim MeZO-om.
Česta pitanja
- Što je optimizator nultog reda i čemu služi?
- Optimizator nultog reda (zeroth-order) procjenjuje gradijente samo putem prosljeđivanja unaprijed, bez izračuna stvarnih gradijenata unazad. Time drastično smanjuje GPU memorijske zahtjeve jer ne treba pohraniti gradijente ni stanja optimizatora.
- Zašto Adam nije mogao direktno zamijeniti SGD u MeZO pristupu?
- Direktna primjena Adama na MeZO bi utrostručila memorijske zahtjeve jer Adam prati prve i druge momente gradijenata za svaki parametar. AdaMeZO zaobilazi ovaj problem procjenom momenata bez njihove trajne pohrane u memoriji.
- Koliko je AdaMeZO učinkovitiji od MeZO?
- AdaMeZO postiže do 70% manje prosljeđivanja unaprijed u odnosu na standardni MeZO uz istu razinu memorijske učinkovitosti, što znači brže konvergiranje pri jednakim memorijskim ograničenjima.
Povezane vijesti
BWLA: 1-bitna kvantizacija LLM-ova s 3,26× ubrzanjem i 70% boljim rezultatima (ACL 2026)
KellyBench: AI agenti upravljali kladioničarskim bankrollom u Premier Ligi — svi vodeći modeli izgubili novac
Latent-GRPO: stabilna RL optimizacija za latent reasoning — 7,86 boda na GSM8K-Aug i 4,27 boda na AIME uz 3-4× kraće reasoning chain-ove