Grundlagen
Skalierungsgesetze
Empirische Potenzgesetze, die Modellgröße, Trainingsdaten und Rechenleistung mit der Leistung verknüpfen; Grundlage für die Planung des Trainings großer Modelle.
Skalierungsgesetze (scaling laws) sind empirische Potenzgesetze, die beschreiben, wie der Verlust (Loss) eines Modells gleichmäßig sinkt, wenn drei Größen wachsen: die Zahl der Parameter, die Menge der Trainingsdaten und die ins Training investierte Rechenleistung. Kaplan et al. (2020) zeigten, dass die Leistung von großen Sprachmodellen über viele Größenordnungen vorhersagbaren Kurven folgt.
Eine typische Form lautet L(N, D) = E + A·N^−α + B·D^−β, wobei N die Parameterzahl und D die Zahl der Token bezeichnet. Diese Gesetze erlauben es, die Qualität eines großen Modells aus kleineren, billigeren Experimenten zu schätzen, bevor ein enormes Rechenbudget eingesetzt wird.
Hoffmann et al. (2022, „Chinchilla”) korrigierten die Regel: Bei festem Budget sollten Parameter und Daten im gleichen Verhältnis skaliert werden, da frühere Modelle untertrainiert waren. Skalierungsgesetze sind heute die Grundlage für die Planung von Foundation Models, und die Debatte 2025-2026 verschiebt sich hin zu Frontier-Modellen und der Skalierung der Rechenleistung zur Inferenzzeit (Test-Time-Compute).