Infrastruktur

KV-Cache

Zwischengespeicherte Key-/Value-Tensoren der Attention, die über Dekodierschritte hinweg wiederverwendet werden, um die LLM-Inferenz zu beschleunigen.

KV-Cache (KV cache) ist eine Technik zur Beschleunigung der Inferenz, die die in den Schichten des Attention-Mechanismus berechneten Key- (K) und Value-Tensoren (V) speichert, damit sie über aufeinanderfolgende Schritte der Textgenerierung hinweg wiederverwendet werden können.

Große Sprachmodelle geben jeweils ein Token aus, und jedes neue Token „beachtet” alle vorherigen. Ohne Cache würde das Modell die K- und V-Projektionen für die gesamte Sequenz bei jedem Schritt neu berechnen, was quadratisch mit der Länge wächst. Da sich diese Tensoren nach der Verarbeitung eines Tokens nicht mehr ändern, speichert der KV-Cache sie, sodass die Attention für jedes neue Token nur über dieses Token berechnet wird. Das senkt die Kosten der Inferenz von quadratisch auf nahezu linear.

Über 2025–2026 ist der KV-Cache der dominierende Speicherengpass bei langen Kontextfenstern und hohem Durchsatz. Sein Speicherbedarf wächst mit der Sequenzlänge und der Zahl gleichzeitiger Anfragen und treibt Techniken wie Multi-Query- und Grouped-Query-Attention, Cache-Quantisierung sowie Paging (PagedAttention) voran.

Quellen

Siehe auch