🟡 🤝 Agenten Donnerstag, 7. Mai 2026 · 2 Min. Lesezeit ·

vLLM: Mooncake Distributed KV-Cache-Store-Integration liefert 3,8× höheren Durchsatz und 46× niedrigere P50 TTFT für Multi-Turn-Agenten-Workloads

Editorial illustration: Netzwerk von GPU-Knoten, verbunden durch RDMA-Links mit einem zentralen Distributed-KV-Cache-Pool

vLLM integriert Mooncake, einen Open-Source-Distributed-KV-Cache-Store, der wiederholte Präfix-Berechnungen zwischen Agenten-Turns eliminiert — auf realistischen Codex-Traces mit 12 GB200-GPUs steigt der Durchsatz um 3,8×, P50 TTFT sinkt um 46×, End-to-End-Latenz um 8,6×, und die Cache-Hit-Rate springt von 1,7 % auf 92,2 %.

🤖

Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.

Das vLLM-Team veröffentlichte die Integration von Mooncake, einer Open-Source-Bibliothek für verteilten KV-Cache-Speicher, als Antwort auf ein spezifisches Problem bei Agenten-Workloads: lange Multi-Turn-Interaktionen, bei denen jeder Turn nur wenige Tausend neue Token hinzufügt, aber 80K+ Token des gecachten Präfixes wiederverwendet. Ohne verteilten Cache erschöpfen ausgelastete Instanzen schnell den lokalen Speicher, und ein Load Balancer, der den nächsten Turn auf eine andere Maschine routet, erzwingt eine vollständige Neuberechnung.

Welche konkreten Gewinne werden auf Codex-Traces erzielt?

Auf realistischen Codex/GPT-5.4-Traces vom SWE-bench-Pro-Benchmark mit 12 GB200-GPUs erzielt die Integration 3,8× höheren Durchsatz, 46× niedrigere P50 TTFT (Time to First Token) und 8,6× niedrigere End-to-End-Latenz. Die Cache-Hit-Rate springt von 1,7 % auf 92,2 %, was bestätigt, dass die Hauptquelle der Langsamkeit die Neuberechnung identischer Präfixe war.

Die Skalierung auf 60 GPUs hält die Cache-Hit-Rate über 95 % bei nahezu linearer Durchsatzskalierung mit Round-Robin-Routing. Der KV-Cache (Key-Value-Cache) ist eine Struktur, die Attention-Vektoren früherer Token speichert, um Neuberechnungen zu vermeiden; Prefix-Sharing ist das Teilen dieses Caches über Instanzen für einen gemeinsamen Konversationsbeginn.

Wie ist Mooncake architektonisch integriert?

Das System verwendet ein Master-Worker-Design: Der Master-Server verwaltet Metadaten und Health-Monitoring, Clients auf GPU-Knoten bilden über GPUDirect RDMA einen verteilten Pool, und vLLM verbindet sich über das bestehende KVConnector-Interface, das bereits für Prefill-Decode-Disaggregation genutzt wird. Die MultiConnector-Kette ermöglicht, dass eine Anfrage ihr Präfix entweder aus der Prefill-Instanz oder dem gemeinsamen Pool wiederherstellen kann.

GPUDirect RDMA bedeutet, dass Daten direkt zwischen GPU-HBM und CPU-Speicher übertragen werden, ohne durch GPU-SMs oder CPU-Staging-Buffer zu laufen, was GPU-Kernel von Störungen freihält. Asynchrone Hintergrundthreads bereiten RDMA-Deskriptoren außerhalb des kritischen Pfads vor.

Was ändert das für Agenten-Systeme in der Produktion?

Die Analyse von 610 Traces aus Codex/GPT-5.4 SWE-bench Pro ergab eine potenzielle Cache-Hit-Rate von 94,2 %, ein Eingabe-/Ausgabe-Verhältnis von 131:1, einen Median von 33 Turns pro Trace und einen P99-Inter-Turn-Delay von 5,2 s bis 81,4 s. Agenten-Workloads sind damit deutlich auf Wiederverwendung ausgerichtet — Systeme ohne Cache-Sharing zahlen in der Praxis eine hohe Strafe.

Die Implementierung ist als GitHub-PR #40900 verfügbar. Geplant sind NVMe-SSD-Offloading, Unterstützung für hybride Architekturen und cache-bewusstes Routing. Beiträge kommen von Inferact, Ant Group, Approaching.AI, Huawei und Alibaba Cloud.

Häufig gestellte Fragen

Was ist KV-Cache und warum ist er für Agenten wichtig?
KV-Cache (Key-Value-Cache) speichert bereits berechnete Attention-Vektoren für frühere Token, damit sie bei jedem neuen Token nicht neu berechnet werden müssen. Für Agenten mit langen Multi-Turn-Verläufen ist das entscheidend — ohne Cache verarbeitet jeder Turn den gesamten Kontext neu.
Was bedeutet Prefix-Sharing in einer verteilten Umgebung?
Prefix-Sharing ist das Teilen des KV-Cache für einen gemeinsamen Konversationsbeginn über vLLM-Instanzen hinweg. Ohne es muss bei einer anderen Maschine alles neu berechnet werden. Mooncake ermöglicht dem gesamten vLLM-Cluster, einen Cache-Pool über RDMA zu teilen.
Wie erreicht Mooncake solch große Verbesserungen?
GPUDirect RDMA überträgt Daten direkt zwischen GPU-HBM und CPU-Speicher ohne Kernel-Eingriff, asynchrone Hintergrundthreads bereiten RDMA-Deskriptoren vor, und die MultiConnector-Kette ermöglicht Präfix-Recovery aus der Prefill-Instanz oder dem gemeinsamen Pool.