arXiv:2606.25519: Quantisierung bläht das Schlussfolgern auf — verborgene Kosten von Niedrigbit-Modellen
Die Quantisierung von Sprachmodellen auf INT4/INT3 erhält die Antwortgenauigkeit, verlängert aber die Schlussfolgerungskette und negiert die erwartete Inferenzbeschleunigung. Microsoft-Forscher führten die Metrik CoT Token Inflation Ratio ein und testeten sie in Mathematik, Code, Wissenschaft und agentischen Aufgaben.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Was ist Quantisierung und warum wird sie eingesetzt?
Quantisierung — die Reduktion der Bitpräzision von Modellgewichten von 16 oder 32 Bit auf INT4 oder INT3 — ist eine Standardtechnik zur Beschleunigung der Inferenz und zur Reduzierung des Speicherbedarfs großer Sprachmodelle. Microsoft-Forscher (7 Autoren, Paper vom 24. Juni 2026) decken auf, dass diese Technik einen versteckten Preis hat, den bisherige Evaluierungen nicht gemessen haben.
Wie hoch sind die tatsächlichen Kosten von Niedrigbit-Modellen?
Quantisierung auf INT4 oder INT3 erhält die Genauigkeit der Endantwort, verursacht aber eine deutliche Verlängerung der Schlussfolgerungskette (Chain-of-Thought — eine Reihe von Zwischenschritten, die das Modell vor der Endantwort generiert). Quantisierte Modelle produzieren mehr Zwischenschritte und semantische Wiederholungen als ihre vollpräzisen Gegenstücke, wodurch die Token-Beschleunigung vollständig durch die erhöhte Anzahl generierter Token aufgehoben wird.
Neue Metrik: CoT Token Inflation Ratio
Die Forscher führten die Metrik CoT Token Inflation Ratio ein, die das Verhältnis der Chain-of-Thought-Länge zwischen quantisiertem und originalem Modell misst. Die Tests umfassten vier Aufgabenkategorien: mathematisches Schlussfolgern, Code-Generierung, wissenschaftliches Q&A und agentisches Tool-Use (Aufgaben mit Werkzeugaufrufen). In allen Kategorien erhöht Quantisierung den Token-Verbrauch beim Schlussfolgern.
Lösung: Training, nicht Prompting
Beim Vergleich von drei Gegenmaßnahmen — Prompting-Strategien, Sampling-Techniken und Quantization-Aware Training — kommen die Autoren zu dem Schluss, dass nur quantisierungsbewusstes Training gleichzeitig Genauigkeitsverlust und Token-Inflation reduziert. Prompting- und Sampling-Mitigationen erwiesen sich als unzureichend.
Die praktische Implikation: Evaluierungen quantisierter Reasoning-Modelle müssen neben der Genauigkeit auch den Token-Verbrauch beim Schlussfolgern ausweisen, da dies zwei getrennte Kosten sind, die zusammen die tatsächliche Effizienz bestimmen.
Häufig gestellte Fragen
- Warum verlängert Quantisierung die Schlussfolgerungskette?
- Niedrige Bitpräzision führt kleine numerische Fehler in die Modellgewichte ein, weshalb das Modell mehr Zwischenschritte und semantische Wiederholungen generiert, um die Unsicherheit zu kompensieren — selbst wenn es am Ende zur richtigen Antwort gelangt.
- Wie lässt sich Token-Inflation bei quantisierten Modellen reduzieren?
- Quantization-Aware Training erwies sich als wirksamste Methode: Es übertrifft sowohl Prompting-Strategien als auch Sampling-Techniken bei der gleichzeitigen Reduzierung von Genauigkeitsverlust und Token-Inflation.
Quellen
Verwandte Nachrichten
arXiv:2606.25524: Cliff-Token — einzelne Token, die mathematisches Schlussfolgern zum Scheitern bringen
Microsoft: Generative Causal Testing — KI-Hypothesen über das Gehirn, mit dem Scanner getestet
AWS: Huntington Bank schwärzte PII aus 400 Millionen Dokumenten mit 95 % Genauigkeit