Microsoft Research: DroidSpeak がファインチューニング済み LLM バリアント間で KV キャッシュを共有し、4× の高いスループットを実現
Microsoft Research が NSDI 2026 で DroidSpeak を発表しました。これはアーキテクチャが同一のファインチューニング済み LLM バリアント間で KV キャッシュを共有するシステムで、数十のドメインモデルを持つエンタープライズシナリオで最大 4× の高いスループットを達成し、品質の低下は最小限です。
この記事はAIにより一次情報源から生成されました。
Microsoft Research は USENIX NSDI 2026 シンポジウムでネットワークシステム分野の 11 本の論文を発表し、その中でも特に注目を集めたのが DroidSpeak——同一のベース言語モデルのファインチューニング済みバリアント間で KV キャッシュを共有するシステムです。
KV キャッシュ(Key-Value キャッシュ)は、プロンプト内の各トークンの計算済みアテンション(注意)キーと値を保存するメモリ構造です。これがなければ、すべてのクエリのプリフィル段階をゼロから計算する必要があります。
DroidSpeak はどのような問題を解決しますか?
この問題はエンタープライズ環境では現実のものです:組織はしばしば異なるビジネスドメイン(法務、サポート、マーケティング、内部手続き)向けに同じ LLM の数十のファインチューニング済みバリアントをデプロイします。従来、各バリアントはクエリごとに独自の KV キャッシュをゼロから計算する必要があり、GPU 時間を消費してシステム全体のスループットを制限していました。
DroidSpeak はアーキテクチャが同一のモデルがプリフィル段階で大きな重複を持つことを認識し、バリアント間で計算を再利用する共有メカニズムを導入しています。
パフォーマンスの向上はどれくらいですか?
システムは従来の分離方式と比較して、生成テキストの品質の低下を最小限に抑えながら最大 4× のスループット向上を達成します。これは、追加の GPU なしに同じハードウェアインフラがより多くのユーザーまたはより多くの並列ドメインモデルを処理できることを意味します。
この技術は、共有インフラ上でスペシャライズドモデルのポートフォリオを維持する組織に特に関連します。
Microsoft は NSDI 2026 で他に何を発表しましたか?
DroidSpeak に加えて、同じ投稿では AVA システムについて説明しています。これはイベント知識グラフとエージェント検索を組み合わせて長時間動画分析を行い、10 時間以上の動画の AVA-100 ベンチマークで 75.8% の精度を達成しています。
また、LLM を使用してネットワークプロトコルを自動テストするツール Eywa も発表されました。33 個のバグを発見し、そのうち 16 個は以前は未知でした。これら 3 つの研究はすべて、Microsoft Research が LLM 技術を純粋な NLP からエンジニアリング分野に移行させていることを示しています。
よくある質問
- LLM の文脈での KV キャッシュとは何ですか?
- KV キャッシュ(Key-Value キャッシュ)は、プロンプト内の各トークンの計算済みアテンションキーと値を保存するメモリ構造です。これにより、クエリごとにプリフィル段階を再計算する必要がなくなります。
- なぜファインチューニング済みバリアント間で KV キャッシュの共有が可能なのですか?
- 同じベースモデルのファインチューニング済みバリアントは同一のアーキテクチャを持ち、プリフィル計算に大きな重複があります。そのため DroidSpeak は重複を認識し、ゼロから計算する代わりにキャッシュを再利用します。
- NSDI 2026 とは何ですか?
- USENIX Symposium on Networked Systems Design and Implementation 2026 で、Microsoft が 11 本の論文を発表した、ネットワークシステム研究の主要な学術カンファレンスです。