🟢 🤖 Modelle Veröffentlicht: · 2 Min. Lesezeit ·

arXiv:2605.19660: OScaR — INT2-Quantisierung des KV-Cache ermöglicht 3× schnelleres Decoding

arXiv:2605.19660 ↗

Editorial illustration: Forschende veröffentlichen OScaR, eine Methode zur Lösung des KV-Cache-Quantisierungsproblems in großen Sprachmodellen

Forschende haben OScaR veröffentlicht — eine Methode, die das grundlegende Problem der KV-Cache-Quantisierung in großen Sprachmodellen löst. Mit INT2-Präzision (nur 2 Bit pro Wert) erzielt sie nahezu verlustfreie Genauigkeit, 3× schnelleres Decoding, 5,3× weniger Speicher und 4,1× höheren Durchsatz gegenüber BF16 FlashDecoding-v2.

🤖

Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.

Speicher ist heute eine der größten Hürden für den produktiven Einsatz großer Sprachmodelle. Jedes Mal, wenn ein Modell einen neuen Token generiert, muss der gesamte Gesprächskontext verfügbar sein — und dieser temporäre Speicher, bekannt als KV-Cache (Key-Value-Cache), wächst linear mit der Kontextlänge und kann auf der GPU Dutzende Gigabyte RAM beanspruchen.

Warum war extreme KV-Cache-Komprimierung ein ungelöstes Problem?

Der Standardansatz ist Quantisierung — statt 16-Bit-Dezimalzahlen werden Werte in einem kleineren Format gespeichert. INT4 (4 Bit) bringt akzeptable Verluste, doch INT2 (2 Bit) führte bislang zu einem dramatischen Genauigkeitsverlust. Die Forschenden identifizierten die Ursache: Token-Norm-Ungleichheit — bestimmte Dimensionen weisen Ausreißerwerte auf, die eine 2-Bit-Darstellung schlicht nicht präzise abbilden kann.

OScaR (Occam’s Razor) löst dies mit einem eleganten zweistufigen Ansatz: Channel Rotation normalisiert die Werteverteilung, anschließend skaliert Omni-Token Scaling die verbleibenden Variationen pro Token. Das Ergebnis ist eine INT2-Quantisierung, die laut den Autoren „nahezu verlustfreie” Genauigkeit auf Benchmarks erzielt.

Was bedeuten die Zahlen konkret?

Im Vergleich zu BF16 FlashDecoding-v2 (dem De-facto-Standard für effizienten Inference):

  • 3,0× schnelleres Decoding — das Modell antwortet dreimal schneller
  • 5,3× weniger Speicher — dieselbe GPU kann deutlich längere Kontexte oder mehr parallele Anfragen bedienen
  • 4,1× höherer Durchsatz — mehr Nutzerinnen und Nutzer auf derselben Hardware

Die Methode funktioniert bei Text-, multimodalen und omni-modalen Modellen, der Code ist öffentlich auf GitHub verfügbar, und das Paper wurde am 19. Mai 2026 zur Begutachtung eingereicht.

Praktische Bedeutung für die KI-Infrastruktur

Für Unternehmen, die LLM-Inference in der Cloud betreiben, lassen sich diese Zahlen direkt in Kosten übersetzen. Wenn dieselbe GPU 4× mehr Anfragen bei gleicher Latenz bedienen kann, sinken die Kosten pro Anfrage um ca. 75 %. OScaR könnte — sofern es das Peer-Review besteht und dieselben Ergebnisse auf einem breiteren Modellspektrum zeigt — zu einem Standardbestandteil des Inference-Stacks neben FlashAttention und Speculative Decoding werden.

Häufig gestellte Fragen

Was ist der KV-Cache und warum ist er schwer zu komprimieren?
Der KV-Cache (Key-Value-Cache) ist der Arbeitsspeicher, in dem ein Sprachmodell Zwischen-Attention-Ergebnisse für bereits verarbeitete Token ablegt. Ohne ihn müsste für jeden neuen Token der gesamte Kontext neu berechnet werden. Das Problem bei der Komprimierung ist die „Token-Norm-Ungleichheit" — bestimmte Dimensionen haben extrem hohe Werte, die Standard-Quantisierungsalgorithmen in wenigen Bits nicht präzise erfassen können.
Was bedeutet INT2-Quantisierung genau?
INT2-Quantisierung bedeutet, dass jeder Wert im KV-Cache in nur 2 Bit statt den üblichen 16 oder 32 Bit gespeichert wird. Das ist eine „extreme" Komprimierung — 8× bis 16× kleiner als das übliche BF16-Format. OScaR erreicht mit Rotation und Token-Skalierung, dass diese Komprimierung die Modellgenauigkeit kaum beeinträchtigt.
Funktioniert OScaR nur für Textmodelle?
Nein — OScaR ist für Text-, multimodale und omni-modale Sprachmodelle ausgelegt, was es auf das breitere Ökosystem moderner KI-Systeme anwendbar macht, die Text, Bilder und Audio kombinieren.