Microsoft Research: DroidSpeak, 미세 조정된 LLM 변형 간 KV 캐시 공유로 4배 더 높은 처리량 달성
Microsoft Research가 NSDI 2026에서 DroidSpeak를 발표했습니다. 이는 아키텍처가 동일한 미세 조정된 LLM 변형 간에 KV 캐시를 공유하는 시스템으로, 수십 개의 도메인 모델을 가진 엔터프라이즈 시나리오에서 최대 4배 더 높은 처리량을 달성하며 품질 저하는 최소화됩니다.
이 기사는 AI가 1차 출처를 기반으로 생성했습니다.
Microsoft Research가 USENIX NSDI 2026 심포지엄에서 네트워크 시스템 분야의 11편의 논문을 발표했으며, 그 중 가장 주목받는 것은 DroidSpeak——동일한 기반 언어 모델의 미세 조정된 변형 간에 KV 캐시를 공유하는 시스템입니다.
KV 캐시(키-값 캐시)는 프롬프트의 각 토큰에 대해 계산된 어텐션(주의) 키와 값을 저장하는 메모리 구조입니다. 이것이 없으면 모든 쿼리의 프리필 단계를 처음부터 계산해야 합니다.
DroidSpeak는 어떤 문제를 해결합니까?
이 문제는 엔터프라이즈 환경에서 현실적입니다: 조직은 흔히 다양한 비즈니스 도메인(법무, 지원, 마케팅, 내부 절차)을 위해 동일한 LLM의 수십 개의 미세 조정된 변형을 배포합니다. 전통적으로 각 변형은 모든 쿼리에서 처음부터 자체 KV 캐시를 계산해야 하며, 이는 GPU 시간을 소비하고 시스템의 전체 처리량을 제한합니다.
DroidSpeak는 아키텍처가 동일한 모델들이 프리필 단계에서 큰 중복을 가진다는 점을 인식하고 변형 간에 계산을 재활용하는 공유 메커니즘을 도입합니다.
성능 향상은 얼마나 됩니까?
시스템은 기존 격리 방식 대비 생성 텍스트 품질 저하를 최소화하면서 최대 4배의 처리량 향상을 달성합니다. 이는 추가 GPU 없이 동일한 하드웨어 인프라가 훨씬 더 많은 사용자 또는 더 많은 병렬 도메인 모델을 처리할 수 있음을 의미합니다.
이 기술은 공유 인프라에서 특화된 모델 포트폴리오를 유지하는 조직에 특히 관련이 있습니다.
Microsoft는 NSDI 2026에서 또 무엇을 발표했습니까?
DroidSpeak 외에도 동일한 게시물에서 AVA 시스템을 설명합니다. 이 시스템은 이벤트 지식 그래프와 에이전트 검색을 결합하여 긴 비디오 분석을 수행하며, 10시간 이상의 비디오에서 AVA-100 벤치마크 75.8% 정확도를 달성합니다.
또한 LLM을 사용하여 네트워크 프로토콜을 자동으로 테스트하는 도구 Eywa도 발표되었습니다. 33개의 버그를 발견했으며 그 중 16개는 이전에 알려지지 않았습니다. 이 세 가지 연구 모두 Microsoft Research가 LLM 기술을 순수 NLP에서 공학 분야로 이동시키고 있음을 보여줍니다.
자주 묻는 질문
- LLM 맥락에서 KV 캐시란 무엇입니까?
- KV 캐시(키-값 캐시)는 프롬프트의 각 토큰에 대해 계산된 어텐션 키와 값을 저장하는 메모리 구조로, 모든 쿼리에서 프리필 단계를 재계산할 필요가 없게 합니다.
- 미세 조정된 변형 간에 KV 캐시 공유가 가능한 이유는 무엇입니까?
- 동일한 기반 모델의 미세 조정된 변형은 동일한 아키텍처를 가지며 프리필 계산에서 큰 중복이 있습니다. 따라서 DroidSpeak는 중복을 인식하고 처음부터 계산하는 대신 캐시를 재사용합니다.
- NSDI 2026이란 무엇입니까?
- Microsoft가 11편의 논문을 발표한 USENIX Symposium on Networked Systems Design and Implementation 2026으로, 네트워크 시스템 연구의 주요 학술 학회입니다.