Microsoft Research: DroidSpeak teilt KV-Cache zwischen feinabgestimmten LLM-Varianten für 4× höheren Durchsatz
Microsoft Research präsentierte auf dem NSDI 2026 DroidSpeak — ein System, das den KV-Cache zwischen architektonisch identischen feinabgestimmten LLM-Varianten teilt und bis zu 4× höheren Durchsatz bei minimalem Qualitätsverlust in Enterprise-Szenarien mit Dutzenden von Domänenmodellen erzielt.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Microsoft Research stellte auf dem USENIX NSDI 2026 elf Beiträge aus dem Bereich Netzwerksysteme vor. Besonders hervor sticht DroidSpeak — ein System zur Teilung des KV-Caches zwischen feinabgestimmten Varianten desselben Basis-Sprachmodells.
Der KV-Cache (Key-Value-Cache) ist eine Speicherstruktur, die berechnete Attention-Schlüssel und -Werte für jeden Prompt-Token speichert; ohne ihn müsste die Prefill-Phase bei jeder Anfrage von Grund auf neu berechnet werden.
Welches Problem löst DroidSpeak?
Das Problem ist in Enterprise-Umgebungen real: Organisationen setzen häufig Dutzende feinabgestimmter Varianten desselben LLM für verschiedene Geschäftsbereiche ein (Recht, Support, Marketing, interne Verfahren). Jede Variante berechnet traditionell bei jeder Anfrage ihren eigenen KV-Cache von Grund auf, was GPU-Zeit verbraucht und den Gesamtdurchsatz begrenzt.
DroidSpeak erkennt, dass architektonisch identische Modelle große Überschneidungen in den Prefill-Phasen aufweisen, und führt einen Sharing-Mechanismus ein, der Berechnungen zwischen Varianten wiederverwend.
Wie groß ist der Leistungsgewinn?
Das System erzielt bis zu 4× höheren Durchsatz bei minimalem Qualitätsverlust im Vergleich zur klassischen Isolierung. Das bedeutet, dass dieselbe Hardware-Infrastruktur deutlich mehr Nutzer oder mehr parallele Domänenmodelle bedienen kann — ohne zusätzliche GPUs.
Die Technik ist besonders relevant für Organisationen, die ein Portfolio spezialisierter Modelle auf gemeinsamer Infrastruktur betreiben.
Was zeigt Microsoft noch auf dem NSDI 2026?
Neben DroidSpeak beschreibt derselbe Beitrag das AVA-System, das Ereigniswissensgraphen mit agentischem Abruf für die Langvideo-Analyse kombiniert und 75,8 % Genauigkeit auf dem AVA-100-Benchmark mit Videos von über 10 Stunden Länge erreicht.
Vorgestellt wurde auch Eywa — ein Tool, das LLMs für automatisiertes Testen von Netzwerkprotokollen nutzt und 33 Fehler fand, davon 16 bisher unbekannte. Alle drei Beiträge zeigen, wie Microsoft Research KI-Techniken über reines NLP hinaus in Ingenieursdisziplinen ausdehnt.
Häufig gestellte Fragen
- Was ist der KV-Cache im Kontext von LLMs?
- Der KV-Cache (Key-Value-Cache) ist eine Speicherstruktur, die berechnete Attention-Schlüssel und -Werte für jeden Prompt-Token speichert und so eine erneute Berechnung der Prefill-Phase bei jeder Anfrage vermeidet.
- Warum ist KV-Cache-Sharing zwischen feinabgestimmten Varianten möglich?
- Feinabgestimmte Varianten desselben Basismodells haben eine identische Architektur und große Überschneidungen bei Prefill-Berechnungen. DroidSpeak erkennt diese Überschneidungen und verwendet den Cache wieder, statt ihn neu zu berechnen.
- Was ist NSDI 2026?
- Das USENIX-Symposium on Networked Systems Design and Implementation 2026 — die führende akademische Konferenz für Netzwerksystemforschung, auf der Microsoft elf Beiträge vorstellte.
Verwandte Nachrichten
Google: Gemini-API-Dateisuche auf multimodale Bild- und Textsuche erweitert
OpenAI: GPT-5.5 Instant wird neues Standard-ChatGPT-Modell mit weniger Halluzinationen
ArXiv AgentFloor: Kleine Open-Weight-Modelle (0,27B–32B) reichen für kurzfristige Agenten-Aufgaben aus; GPT-5 behält Vorteil nur bei langfristiger Planung