LoRA

LoRA (Low-Rank Adaptation) ist ein parameter-effizientes Fine-Tuning-Verfahren, das 2021 von Hu und Kollegen bei Microsoft vorgestellt wurde. Anstatt alle Gewichte eines großen Modells zu aktualisieren, friert LoRA sie ein und fügt jeder Schicht ein Paar kleiner, trainierbarer Low-Rank-Matrizen hinzu, deren Produkt die benötigte Gewichtsänderung annähert.

Die Idee beruht auf der Beobachtung, dass Gewichtsänderungen beim Fine-Tuning einen niedrigen „intrinsischen Rang” aufweisen und sich daher mit weit weniger Parametern erfassen lassen. Für ein großes Sprachmodell wie GPT-3 (175 Milliarden Parameter) reduziert dies die trainierbaren Parameter um bis zu das 10.000-Fache und den GPU-Speicher um ein Mehrfaches. Nach dem Training lässt sich der Adapter in die Basisgewichte zurückführen, sodass keine zusätzliche Inferenz-Latenz entsteht.

In den Jahren 2025-2026 ist LoRA der De-facto-Standard für die kostengünstige Anpassung offener Modelle wie Llama; in Kombination mit Quantisierung (QLoRA) wird Fine-Tuning sogar auf einer einzigen Consumer-GPU möglich. Kleine, portable Adapter — oft unter 100 MB — machen es zum Rückgrat des Anpassungs-Ökosystems.

Quellen

Siehe auch