Infrastruktur

Quantisierung

Verringerung der Zahlengenauigkeit von Modellgewichten (z. B. FP16 auf INT8 oder INT4), um Größe zu reduzieren und Inferenz mit minimalem Genauigkeitsverlust zu beschleunigen.

Quantisierung (quantization) ist eine Technik zur Modellkompression, die die Zahlengenauigkeit der Gewichte und Aktivierungen eines Modells senkt — etwa indem Zahlen als 8-Bit- oder 4-Bit-Ganzzahlen (INT8, INT4) statt als 16- oder 32-Bit-Gleitkommawerte (FP16, FP32) gespeichert werden.

In der Praxis wird jede Zahl über einen Skalierungsfaktor aus einem breiten kontinuierlichen Bereich auf eine kleinere Menge diskreter Werte abgebildet. Das verkleinert das Modell um das 2- bis 4-Fache, senkt den Speicherbedarf und beschleunigt die Inferenz, da Ganzzahlrechnen weit weniger Energie und Bandbreite braucht als Gleitkomma-Mathematik. Es gibt zwei Hauptansätze: die Quantisierung nach dem Training (PTQ), angewandt auf ein fertiges Modell, und die quantisierungsbewusste Aufbereitung (QAT), die den Genauigkeitsverlust schon beim Training simuliert.

Über 2025–2026 ist Quantisierung der Schlüssel, um große Modelle auf bescheidener Hardware zu betreiben. Formate wie GGUF (llama.cpp) und Methoden wie GPTQ und AWQ lassen Modelle mit zig Milliarden Parametern auf eine einzelne Consumer-GPU oder einen lokalen KI-Beschleuniger passen und demokratisieren so den Zugang zu Open-Weight-Modellen.

Quellen

Siehe auch