Microsoft Research: DroidSpeak 在微调 LLM 变体间共享 KV 缓存,实现 4× 更高吞吐量
Microsoft Research 在 NSDI 2026 上展示了 DroidSpeak,这是一个在架构相同的微调 LLM 变体之间共享 KV 缓存的系统,在拥有数十个领域模型的企业场景中实现了最高 4× 的吞吐量提升,同时质量下降极小。
本文由人工智能基于一手来源生成。
Microsoft Research 在 USENIX NSDI 2026 研讨会上展示了 11 篇网络系统研究论文,其中最为突出的是 DroidSpeak——一个在同一基础语言模型的微调变体之间共享 KV 缓存的系统。
KV 缓存(键值缓存)是一种内存结构,存储提示中每个 token 计算的注意力键和值;没有它,每次查询的预填充阶段都必须从头计算。
DroidSpeak 解决了什么问题?
这个问题在企业环境中是真实存在的:组织通常会为不同业务领域(法律、支持、营销、内部流程)部署数十个同一 LLM 的微调变体。传统上,每个变体在每次查询时都必须从头计算自己的 KV 缓存,这消耗了 GPU 时间并限制了系统的整体吞吐量。
DroidSpeak 识别出架构相同的模型在预填充阶段有大量重叠,并引入了一种在变体之间回收计算结果的共享机制。
性能提升有多少?
该系统实现了最高 4× 的吞吐量提升,与传统隔离方式相比,生成文本质量下降极小。这意味着相同的硬件基础设施可以在不增加 GPU 的情况下服务更多用户或更多并行领域模型。
该技术对于在共享基础设施上维护专业模型组合的组织尤为相关。
Microsoft 在 NSDI 2026 上还展示了什么?
除 DroidSpeak 外,同一篇文章还介绍了 AVA 系统,该系统将事件知识图谱与代理检索相结合,用于长视频分析,在时长超过 10 小时的视频的 AVA-100 基准测试中达到了 75.8% 的准确率。
还展示了 Eywa,这是一种使用 LLM 自动测试网络协议的工具,发现了 33 个 bug,其中 16 个此前未知。这三项研究共同展示了 Microsoft Research 如何将 LLM 技术从纯 NLP 推进到工程学科领域。
常见问题
- LLM 中的 KV 缓存是什么?
- KV 缓存(键值缓存)是一种内存结构,存储提示中每个 token 计算的注意力键和值,从而避免在每次查询时重新计算预填充阶段。
- 为什么可以在微调变体之间共享 KV 缓存?
- 同一基础模型的微调变体具有相同的架构和预填充计算中的大量重叠,因此 DroidSpeak 识别重叠部分并重用缓存,而不是从头开始计算。
- 什么是 NSDI 2026?
- USENIX Symposium on Networked Systems Design and Implementation 2026,Microsoft 在其上展示了 11 篇论文,是网络系统研究领域的顶级学术会议。