vLLM Mooncake: 에이전트 처리량 3.8배 향상

vLLM이 Mooncake 분산 KV 캐시 스토어를 통합하여 에이전트 턴 간 접두사 재계산을 제거합니다. 12대의 GB200 GPU에서 현실적인 Codex 트레이스로 테스트한 결과, 처리량 3.8배 증가, P50 TTFT(첫 번째 토큰까지의 시간) 46배 감소, 엔드투엔드 레이턴시 8.6배 감소, 캐시 적중률이 1.7%에서 92.2%로 급상승했습니다.

vLLM 팀은 분산 KV 캐시 저장을 위한 오픈소스 라이브러리인 Mooncake의 통합을 발표했습니다. 에이전트 워크로드의 특정 문제를 해결하기 위해서입니다. 긴 멀티턴 대화에서는 각 턴이 수천 개의 새 토큰만 추가하지만 80K+ 토큰의 캐시된 접두사를 재활용합니다. 분산 캐시 없이는 바쁜 인스턴스가 로컬 메모리를 금방 소진하고, 로드 밸런서가 다음 턴을 다른 머신으로 라우팅하면 완전한 재계산이 강제됩니다.

Codex 트레이스에서의 구체적인 성능 향상은 얼마나 되나?

SWE-bench Pro 벤치마크의 현실적인 Codex/GPT-5.4 트레이스를 12대의 GB200 GPU로 테스트한 결과, 통합 후 처리량 3.8배 향상, P50 TTFT(첫 번째 토큰까지의 시간) 46배 감소, 엔드투엔드 레이턴시 8.6배 감소를 달성했습니다. 캐시 적중률이 1.7%에서 92.2%로 급등하여 속도 저하의 주요 원인이 동일 접두사의 재계산이었음을 확인했습니다.

60대 GPU로 확장해도 캐시 적중률이 95% 이상을 유지하며, 라운드로빈 라우팅 시 처리량이 거의 선형적으로 확장됩니다. KV 캐시(Key-Value 캐시)는 이전 토큰의 어텐션 벡터를 저장하여 재계산을 불필요하게 만드는 데이터 구조이고, 접두사 공유는 대화의 공통 시작 부분의 캐시를 인스턴스 간에 공유하는 것입니다.

Mooncake는 아키텍처상 어떻게 통합되어 있나?

시스템은 마스터-워커 설계를 사용합니다. 마스터 서버가 메타데이터와 상태 모니터링을 관리하고, GPU 노드의 클라이언트들이 GPUDirect RDMA를 통해 분산 풀을 구성하며, vLLM은 프리필-디코드 분리에 이미 사용 중인 기존 KVConnector 인터페이스를 통해 연결됩니다. MultiConnector 체인은 요청이 프리필 인스턴스나 공유 풀 중 어느 쪽에서든 접두사를 복구할 수 있게 합니다.

GPUDirect RDMA는 GPU SM(스트리밍 멀티프로세서)이나 CPU 스테이징 버퍼를 거치지 않고 GPU HBM과 CPU 메모리 사이에서 직접 데이터를 전송합니다. 비동기 백그라운드 스레드가 임계 경로 밖에서 RDMA 디스크립터를 준비합니다.

프로덕션 에이전트 시스템에 무엇을 의미하나?

Codex/GPT-5.4 SWE-bench Pro의 610개 트레이스 분석에서 잠재적 캐시 적중률 94.2%, 입출력 비율 131:1, 트레이스당 중앙값 33 턴, P99 턴간 지연 5.2초~81.4초가 나타났습니다. 이는 에이전트 워크로드가 재사용에 극단적으로 치우쳐 있으며, 캐시 공유를 모르는 시스템이 실제 프로덕션에서 그 비용을 치르고 있음을 의미합니다.

구현은 GitHub PR #40900으로 제공됩니다. 계획 중인 기능에는 NVMe SSD 오프로딩, 하이브리드 아키텍처 지원, 캐시 인식 라우팅이 포함됩니다. Inferact, 앤트 그룹, Approaching.AI, Huawei, Alibaba Cloud 팀들이 기여하고 있습니다.

자주 묻는 질문

KV 캐시란 무엇이고 에이전트에 왜 중요합니까?

KV 캐시(Key-Value 캐시)는 새 토큰 생성 시마다 재계산하지 않아도 되도록 이전 토큰의 어텐션 벡터를 저장합니다. 긴 멀티턴 히스토리를 가진 에이전트에게 필수적입니다. 캐시 없이는 각 턴마다 전체 컨텍스트를 다시 처리해야 합니다.

분산 환경에서 접두사 공유란 무엇을 의미합니까?

접두사 공유는 대화의 공통 시작 부분의 KV 캐시를 여러 vLLM 인스턴스 간에 공유하는 것입니다. 이것 없이는 로드 밸런서가 다음 턴을 다른 머신으로 보낼 때 모든 것을 재계산해야 합니다. Mooncake는 전체 vLLM 클러스터가 RDMA를 통해 캐시 풀을 공유할 수 있게 합니다.

Mooncake는 어떻게 이렇게 큰 성능 향상을 달성합니까?

GPUDirect RDMA가 커널 개입 없이 GPU HBM과 CPU 메모리 사이에서 직접 데이터를 전송하고, 비동기 백그라운드 스레드가 RDMA 디스크립터를 준비하며, MultiConnector 체인이 프리필 인스턴스나 공유 풀에서 접두사를 복구할 수 있게 합니다.

vLLM: Mooncake 분산 KV 캐시 스토어 통합으로 멀티턴 에이전트 처리량 3.8배, P50 TTFT 46배 개선

Codex 트레이스에서의 구체적인 성능 향상은 얼마나 되나?

Mooncake는 아키텍처상 어떻게 통합되어 있나?

프로덕션 에이전트 시스템에 무엇을 의미하나?

자주 묻는 질문

출처

관련 뉴스