AdaMeZO: fino ugađanje LLM-ova Adam-stilom bez pohrane momenata u GPU memoriji
AdaMeZO je optimizator nultog reda koji kombinira prednosti Adam algoritma s memorijskom učinkovitošću MeZO pristupa za fino ugađanje velikih jezičnih modela. Koristi samo prosljeđivanja unaprijed i postiže do 70% manje prolaza u odnosu na MeZO, uz poboljšanu konvergenciju.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Istraživači Zhijie Cai, Haolong Chen i Guangxu Zhu predstavili su AdaMeZO, optimizator nultog reda (engl. zeroth-order optimizer) koji donosi prednosti popularnog Adam algoritma u fino ugađanje (engl. fine-tuning) velikih jezičnih modela — a da pritom ne zahtijeva pohanu momenata u GPU memoriji.
Zašto je GPU memorija usko grlo pri fino ugađanju LLM-ova?
Standardni Adam optimizator, koji se rutinski koristi za treniranje neuronskih mreža, prati dvije statistike za svaki parametar modela: prvi moment (pokretni prosjek gradijenata) i drugi moment (pokretni prosjek kvadrata gradijenata). Za modele s milijardama parametara to utrostručuje memorijske zahtjeve. MeZO, prethodni pristup koji koristi samo prosljeđivanja unaprijed bez izračuna pravih gradijenata, rješava memorijski problem — ali sporije konvergira jer nema adaptivnog prilagođavanja koraka učenja po parametru.
Kako AdaMeZO kombinira oba pristupa?
AdaMeZO procjenjuje Adamove momente bez njihove trajne pohrane: koristi nasumična perturbiranja težina i mjeri promjene u gubitku (loss) kako bi rekonstruirao adaptivno ponašanje momenata u letu, za svaki korak optimizacije posebno. Rezultat je optimizator koji se ponaša poput Adama — prilagođava korak učenja prema procijenjenoj geometriji površine gubitka — a memorijski otisak ostaje jednak MeZO pristupu.
Što pokazuju vizualizacije trajektorija?
Autori prikazuju vizualizacije trajektorija optimizacije na različitim površinama gubitka koje demonstriraju kako AdaMeZO adaptivno navigira ravnim i zakrivljenim dijelovima prostora parametara, za razliku od MeZO koji se ponaša uniformnije. Kvantitativno, AdaMeZO ostvaruje do 70% manje prosljeđivanja unaprijed (engl. forward passes) za postizanje iste razine performansi, uz poboljšanu konvergenciju u usporedbi s originalnim MeZO-om.
Česta pitanja
- Što je optimizator nultog reda i čemu služi?
- Optimizator nultog reda (zeroth-order) procjenjuje gradijente samo putem prosljeđivanja unaprijed, bez izračuna stvarnih gradijenata unazad. Time drastično smanjuje GPU memorijske zahtjeve jer ne treba pohraniti gradijente ni stanja optimizatora.
- Zašto Adam nije mogao direktno zamijeniti SGD u MeZO pristupu?
- Direktna primjena Adama na MeZO bi utrostručila memorijske zahtjeve jer Adam prati prve i druge momente gradijenata za svaki parametar. AdaMeZO zaobilazi ovaj problem procjenom momenata bez njihove trajne pohrane u memoriji.
- Koliko je AdaMeZO učinkovitiji od MeZO?
- AdaMeZO postiže do 70% manje prosljeđivanja unaprijed u odnosu na standardni MeZO uz istu razinu memorijske učinkovitosti, što znači brže konvergiranje pri jednakim memorijskim ograničenjima.
Povezane vijesti
arXiv:2606.19808: SEVRA selektivnom verifikacijom štedi do 91 posto tokena u rasuđivanju modela
arXiv:2606.20333: SoftSkill komprimira skill-dokumente u 32 latentna tokena i diže LiveMath za 42,1 boda
arXiv:2606.19327: Rubric-conditioned self-distillation nadmašuje GRPO u treniranju reasoning modela