AdaMeZO: Adam-Stil LLM-Fine-Tuning ohne Speicherung von Gradientenmomenten im GPU-Speicher
AdaMeZO ist ein Optimierer nullter Ordnung, der die Vorteile des Adam-Algorithmus mit der Speichereffizienz des MeZO-Ansatzes für das Fine-Tuning großer Sprachmodelle kombiniert. Er nutzt ausschließlich Vorwärtsdurchläufe und erreicht bis zu 70 % weniger Durchläufe gegenüber MeZO bei verbesserter Konvergenz.