AdaMeZO: Adam-LLM-Optimierung ohne Speicher-Overhead

AdaMeZO ist ein Optimierer nullter Ordnung, der die Vorteile des Adam-Algorithmus mit der Speichereffizienz des MeZO-Ansatzes für das Fine-Tuning großer Sprachmodelle kombiniert. Er nutzt ausschließlich Vorwärtsdurchläufe und erreicht bis zu 70 % weniger Durchläufe gegenüber MeZO bei verbesserter Konvergenz.

Die Forscher Zhijie Cai, Haolong Chen und Guangxu Zhu stellen AdaMeZO vor, einen Optimierer nullter Ordnung, der die Vorteile des populären Adam-Algorithmus ins Fine-Tuning großer Sprachmodelle bringt — ohne Gradientenmomente im GPU-Speicher ablegen zu müssen.

Warum ist GPU-Speicher beim LLM-Fine-Tuning ein Engpass?

Der Standard-Adam-Optimierer, der routinemäßig für das Training neuronaler Netze verwendet wird, verfolgt zwei Statistiken pro Modellparameter: den ersten Moment (gleitender Mittelwert der Gradienten) und den zweiten Moment (gleitender Mittelwert der quadrierten Gradienten). Bei Modellen mit Milliarden von Parametern verdreifacht dies den Speicherbedarf. MeZO, ein früherer Ansatz, der ausschließlich Vorwärtsdurchläufe ohne echte Gradientenberechnung nutzt, löst das Speicherproblem — konvergiert jedoch langsamer, da eine parameterspezifische adaptive Lernratenanpassung fehlt.

Wie kombiniert AdaMeZO beide Ansätze?

AdaMeZO schätzt Adams Momente, ohne sie dauerhaft zu speichern: Es verwendet zufällige Gewichtsperturbationen und misst Verluständerungen, um adaptives Momentverhalten on-the-fly für jeden Optimierungsschritt zu rekonstruieren. Das Ergebnis ist ein Optimierer, der sich wie Adam verhält — die Lernrate entsprechend der geschätzten Verlustflächengeometrie anpassend — während der Speicherbedarf dem von MeZO entspricht.

Was zeigen die Trajektorienvisualisierungen?

Die Autoren präsentieren Visualisierungen von Optimierungstrajektorien auf verschiedenen Verlustflächen, die zeigen, wie AdaMeZO flache und gekrümmte Bereiche des Parameterraums adaptiv navigiert — im Gegensatz zum gleichmäßigeren Verhalten von MeZO. Quantitativ erreicht AdaMeZO bis zu 70 % weniger Vorwärtsdurchläufe für dasselbe Leistungsniveau, mit verbesserter Konvergenz gegenüber dem ursprünglichen MeZO.

Häufig gestellte Fragen

Was ist ein Optimierer nullter Ordnung und wofür wird er verwendet?

Ein Optimierer nullter Ordnung schätzt Gradienten ausschließlich über Vorwärtsdurchläufe, ohne echte Rückwärtsgradienten zu berechnen. Dies reduziert den GPU-Speicherbedarf erheblich, da weder Gradienten noch Optimiererzustände gespeichert werden müssen.

Warum konnte Adam SGD beim MeZO-Ansatz nicht direkt ersetzen?

Die direkte Anwendung von Adam auf MeZO würde den Speicherbedarf verdreifachen, da Adam erste und zweite Gradienten-Momente für jeden Parameter verfolgt. AdaMeZO umgeht dies, indem Momente on-the-fly geschätzt werden, ohne sie dauerhaft zu speichern.

Um wie viel ist AdaMeZO effizienter als MeZO?

AdaMeZO erreicht bis zu 70 % weniger Vorwärtsdurchläufe als Standard-MeZO bei gleichem Speicherbedarf — also schnellere Konvergenz bei identischen Speichergrenzen.

AdaMeZO: Adam-Stil LLM-Fine-Tuning ohne Speicherung von Gradientenmomenten im GPU-Speicher

Warum ist GPU-Speicher beim LLM-Fine-Tuning ein Engpass?

Wie kombiniert AdaMeZO beide Ansätze?

Was zeigen die Trajektorienvisualisierungen?

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten