AdaMeZO: fino ugađanje LLM-ova Adam-stilom bez pohrane momenata u GPU memoriji
AdaMeZO je optimizator nultog reda koji kombinira prednosti Adam algoritma s memorijskom učinkovitošću MeZO pristupa za fino ugađanje velikih jezičnih modela. Koristi samo prosljeđivanja unaprijed i postiže do 70% manje prolaza u odnosu na MeZO, uz poboljšanu konvergenciju.