AdaMeZO: Adam optimizacija LLM-ova bez memorijskog troška

AdaMeZO je optimizator nultog reda koji kombinira prednosti Adam algoritma s memorijskom učinkovitošću MeZO pristupa za fino ugađanje velikih jezičnih modela. Koristi samo prosljeđivanja unaprijed i postiže do 70% manje prolaza u odnosu na MeZO, uz poboljšanu konvergenciju.

Istraživači Zhijie Cai, Haolong Chen i Guangxu Zhu predstavili su AdaMeZO, optimizator nultog reda (engl. zeroth-order optimizer) koji donosi prednosti popularnog Adam algoritma u fino ugađanje (engl. fine-tuning) velikih jezičnih modela — a da pritom ne zahtijeva pohanu momenata u GPU memoriji.

Zašto je GPU memorija usko grlo pri fino ugađanju LLM-ova?

Standardni Adam optimizator, koji se rutinski koristi za treniranje neuronskih mreža, prati dvije statistike za svaki parametar modela: prvi moment (pokretni prosjek gradijenata) i drugi moment (pokretni prosjek kvadrata gradijenata). Za modele s milijardama parametara to utrostručuje memorijske zahtjeve. MeZO, prethodni pristup koji koristi samo prosljeđivanja unaprijed bez izračuna pravih gradijenata, rješava memorijski problem — ali sporije konvergira jer nema adaptivnog prilagođavanja koraka učenja po parametru.

Kako AdaMeZO kombinira oba pristupa?

AdaMeZO procjenjuje Adamove momente bez njihove trajne pohrane: koristi nasumična perturbiranja težina i mjeri promjene u gubitku (loss) kako bi rekonstruirao adaptivno ponašanje momenata u letu, za svaki korak optimizacije posebno. Rezultat je optimizator koji se ponaša poput Adama — prilagođava korak učenja prema procijenjenoj geometriji površine gubitka — a memorijski otisak ostaje jednak MeZO pristupu.

Što pokazuju vizualizacije trajektorija?

Autori prikazuju vizualizacije trajektorija optimizacije na različitim površinama gubitka koje demonstriraju kako AdaMeZO adaptivno navigira ravnim i zakrivljenim dijelovima prostora parametara, za razliku od MeZO koji se ponaša uniformnije. Kvantitativno, AdaMeZO ostvaruje do 70% manje prosljeđivanja unaprijed (engl. forward passes) za postizanje iste razine performansi, uz poboljšanu konvergenciju u usporedbi s originalnim MeZO-om.

Česta pitanja

Što je optimizator nultog reda i čemu služi?

Optimizator nultog reda (zeroth-order) procjenjuje gradijente samo putem prosljeđivanja unaprijed, bez izračuna stvarnih gradijenata unazad. Time drastično smanjuje GPU memorijske zahtjeve jer ne treba pohraniti gradijente ni stanja optimizatora.

Zašto Adam nije mogao direktno zamijeniti SGD u MeZO pristupu?

Direktna primjena Adama na MeZO bi utrostručila memorijske zahtjeve jer Adam prati prve i druge momente gradijenata za svaki parametar. AdaMeZO zaobilazi ovaj problem procjenom momenata bez njihove trajne pohrane u memoriji.

Koliko je AdaMeZO učinkovitiji od MeZO?

AdaMeZO postiže do 70% manje prosljeđivanja unaprijed u odnosu na standardni MeZO uz istu razinu memorijske učinkovitosti, što znači brže konvergiranje pri jednakim memorijskim ograničenjima.

AdaMeZO: fino ugađanje LLM-ova Adam-stilom bez pohrane momenata u GPU memoriji

Zašto je GPU memorija usko grlo pri fino ugađanju LLM-ova?

Kako AdaMeZO kombinira oba pristupa?

Što pokazuju vizualizacije trajektorija?

Česta pitanja

Izvori

Povezane vijesti