OScaR: INT2 KV-Cache — 3× Decoding, 5× weniger RAM

Forschende haben OScaR veröffentlicht — eine Methode, die das grundlegende Problem der KV-Cache-Quantisierung in großen Sprachmodellen löst. Mit INT2-Präzision (nur 2 Bit pro Wert) erzielt sie nahezu verlustfreie Genauigkeit, 3× schnelleres Decoding, 5,3× weniger Speicher und 4,1× höheren Durchsatz gegenüber BF16 FlashDecoding-v2.

Speicher ist heute eine der größten Hürden für den produktiven Einsatz großer Sprachmodelle. Jedes Mal, wenn ein Modell einen neuen Token generiert, muss der gesamte Gesprächskontext verfügbar sein — und dieser temporäre Speicher, bekannt als KV-Cache (Key-Value-Cache), wächst linear mit der Kontextlänge und kann auf der GPU Dutzende Gigabyte RAM beanspruchen.

Warum war extreme KV-Cache-Komprimierung ein ungelöstes Problem?

Der Standardansatz ist Quantisierung — statt 16-Bit-Dezimalzahlen werden Werte in einem kleineren Format gespeichert. INT4 (4 Bit) bringt akzeptable Verluste, doch INT2 (2 Bit) führte bislang zu einem dramatischen Genauigkeitsverlust. Die Forschenden identifizierten die Ursache: Token-Norm-Ungleichheit — bestimmte Dimensionen weisen Ausreißerwerte auf, die eine 2-Bit-Darstellung schlicht nicht präzise abbilden kann.

OScaR (Occam’s Razor) löst dies mit einem eleganten zweistufigen Ansatz: Channel Rotation normalisiert die Werteverteilung, anschließend skaliert Omni-Token Scaling die verbleibenden Variationen pro Token. Das Ergebnis ist eine INT2-Quantisierung, die laut den Autoren „nahezu verlustfreie” Genauigkeit auf Benchmarks erzielt.

Was bedeuten die Zahlen konkret?

Im Vergleich zu BF16 FlashDecoding-v2 (dem De-facto-Standard für effizienten Inference):

3,0× schnelleres Decoding — das Modell antwortet dreimal schneller
5,3× weniger Speicher — dieselbe GPU kann deutlich längere Kontexte oder mehr parallele Anfragen bedienen
4,1× höherer Durchsatz — mehr Nutzerinnen und Nutzer auf derselben Hardware

Die Methode funktioniert bei Text-, multimodalen und omni-modalen Modellen, der Code ist öffentlich auf GitHub verfügbar, und das Paper wurde am 19. Mai 2026 zur Begutachtung eingereicht.

Praktische Bedeutung für die KI-Infrastruktur

Für Unternehmen, die LLM-Inference in der Cloud betreiben, lassen sich diese Zahlen direkt in Kosten übersetzen. Wenn dieselbe GPU 4× mehr Anfragen bei gleicher Latenz bedienen kann, sinken die Kosten pro Anfrage um ca. 75 %. OScaR könnte — sofern es das Peer-Review besteht und dieselben Ergebnisse auf einem breiteren Modellspektrum zeigt — zu einem Standardbestandteil des Inference-Stacks neben FlashAttention und Speculative Decoding werden.

Häufig gestellte Fragen

Was ist der KV-Cache und warum ist er schwer zu komprimieren?

Der KV-Cache (Key-Value-Cache) ist der Arbeitsspeicher, in dem ein Sprachmodell Zwischen-Attention-Ergebnisse für bereits verarbeitete Token ablegt. Ohne ihn müsste für jeden neuen Token der gesamte Kontext neu berechnet werden. Das Problem bei der Komprimierung ist die „Token-Norm-Ungleichheit" — bestimmte Dimensionen haben extrem hohe Werte, die Standard-Quantisierungsalgorithmen in wenigen Bits nicht präzise erfassen können.

Was bedeutet INT2-Quantisierung genau?

INT2-Quantisierung bedeutet, dass jeder Wert im KV-Cache in nur 2 Bit statt den üblichen 16 oder 32 Bit gespeichert wird. Das ist eine „extreme" Komprimierung — 8× bis 16× kleiner als das übliche BF16-Format. OScaR erreicht mit Rotation und Token-Skalierung, dass diese Komprimierung die Modellgenauigkeit kaum beeinträchtigt.

Funktioniert OScaR nur für Textmodelle?

Nein — OScaR ist für Text-, multimodale und omni-modale Sprachmodelle ausgelegt, was es auf das breitere Ökosystem moderner KI-Systeme anwendbar macht, die Text, Bilder und Audio kombinieren.

arXiv:2605.19660: OScaR — INT2-Quantisierung des KV-Cache ermöglicht 3× schnelleres Decoding

Warum war extreme KV-Cache-Komprimierung ein ungelöstes Problem?

Was bedeuten die Zahlen konkret?

Praktische Bedeutung für die KI-Infrastruktur

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten