Microsoft DroidSpeak: 4× throughput za LLM-ove

Microsoft Research je na NSDI 2026 prezentirao DroidSpeak, sustav koji dijeli KV cache između arhitekturno identičnih fine-tuned LLM varijanti i postiže do 4× viši throughput uz minimalni pad kvalitete u enterprise scenarijima s desecima domenskih modela.

Microsoft Research je na simpoziju USENIX NSDI 2026 prezentirao jedanaest radova iz područja umreženih sustava, a posebno se ističe DroidSpeak — sustav za dijeljenje KV cachea između fino-tuned varijanti istog baznog jezičnog modela.

KV cache (Key-Value cache) je memorijska struktura koja čuva izračunate ključeve i vrijednosti pažnje (attention) za svaki token u promptu; bez nje bi se prefill faza svakog upita morala računati od nule.

Koji problem DroidSpeak rješava?

Problem je realan u enterprise okruženjima: organizacije često deployaju desetke fino-tuned varijanti istog LLM-a za različite poslovne domene (pravo, podrška, marketing, interne procedure). Svaka varijanta tradicionalno mora računati vlastiti KV cache od nule pri svakom upitu, što troši GPU vrijeme i ograničava ukupni throughput sustava.

DroidSpeak prepoznaje da arhitekturno identični modeli imaju veliku podudarnost u prefill fazama te uvodi mehanizam dijeljenja koji recikla izračune između varijanti.

Koliki je dobitak u performansama?

Sustav postiže do 4× viši throughput uz minimalni pad kvalitete generiranog teksta u odnosu na klasičnu izolaciju. To znači da ista hardverska infrastruktura može opslužiti znatno više korisnika ili više paralelnih domenskih modela bez dodatnih GPU-ova.

Tehnika je posebno relevantna za organizacije koje održavaju portfelj specijaliziranih modela na zajedničkoj infrastrukturi.

Što još Microsoft pokazuje na NSDI 2026?

Uz DroidSpeak, isti post opisuje AVA sustav koji kombinira event knowledge grafove s agentnim dohvatom za analitiku dugih videa i postiže 75.8% točnost na AVA-100 benchmarku s videima duljim od 10 sati.

Predstavljen je i Eywa, alat koji koristi LLM-ove za automatsko testiranje mrežnih protokola — pronašao je 33 buga, od kojih je 16 bilo prethodno nepoznatih. Sva tri rada pokazuju kako Microsoft Research pomiče LLM tehnike iz čistog NLP-a u inženjerske discipline.

Česta pitanja

Što je KV cache u kontekstu LLM-ova?

KV cache (Key-Value cache) je memorijska struktura koja čuva izračunate ključeve i vrijednosti pažnje za svaki token u promptu, čime se izbjegava ponovno računanje prefill faze pri svakom upitu.

Zašto je dijeljenje KV cachea moguće između fine-tuned varijanti?

Fine-tuned varijante istog baznog modela imaju identičnu arhitekturu i veliku podudarnost u prefill izračunima, pa DroidSpeak prepoznaje preklapanja i ponovno koristi cache umjesto da ga računa od nule.

Što je NSDI 2026?

USENIX Symposium on Networked Systems Design and Implementation 2026, vodeća akademska konferencija za istraživanja iz područja umreženih sustava na kojoj je Microsoft predstavio jedanaest radova.

Microsoft Research: DroidSpeak dijeli KV cache između fine-tuned LLM varijanti za 4× veći throughput

Koji problem DroidSpeak rješava?

Koliki je dobitak u performansama?

Što još Microsoft pokazuje na NSDI 2026?

Česta pitanja

Izvori

Povezane vijesti