에이전트가 KV 캐시를 공유하는 이유는 무엇입니까?

엔터프라이즈 멀티에이전트 시스템에서 여러 에이전트는 관련 작업을 처리하고 효율성을 위해 같은 컨텍스트 메모리를 공유하는 경우가 많습니다——각 에이전트가 동일한 문서의 KV 캐시를 재계산하는 대신, 시스템이 한 번 생성하여 공유합니다. 이를 통해 추론 비용을 3~5배 줄일 수 있습니다.

공유 KV 캐시의 위험은 무엇입니까?

KV 캐시에는 LLM을 통과한 토큰의 의미적 임베딩 벡터가 포함되어 있습니다. 에이전트 A가 기밀 문서를 처리하고 KV 캐시를 남기면, 같은 캐시에 접근할 수 있는 에이전트 B가 어텐션 프로빙을 통해 캐시에서 기밀 내용의 일부를 재구성할 수 있습니다.

arXiv LCGuard：멀티에이전트 KV 캐시 보안 프레임워크 발표

Q: LCGuard는 그 채널을 어떻게 차단합니까?

프레임워크는 서로 다른 보안 수준(보안 도메인)의 KV 캐시 영역 사이에 암호화 격리를 추가합니다. 캐시는 같은 도메인 내에서 공유할 수 있지만 경계를 넘어서는 안 됩니다. 또한 어텐션 프로빙 시도가 출력을 생성하기 전에 이를 감지하고 차단하는 런타임 감지기도 추가됩니다.

LCGuard는 효율성을 위해 KV 캐시를 공유하는 멀티에이전트 시스템에서의 데이터 유출을 방지하는 새로운 프레임워크입니다. IBM Research와 MIT 연구진이 Sadie Asif의 주도로 발표한 연구는 『잠재적 통신 가드』 접근 방식의 첫 번째 공식 모델을 제시하며, 여러 에이전트가 공유 메모리를 통해 컨텍스트를 공유하는 프로덕션 에이전트 RAG 시스템에 적용 가능합니다.

arXiv 프리프린트 LCGuard는 2026년 5월 22일 공개되어 멀티에이전트 LLM 시스템에서 공유 KV 캐시를 보호하기 위한 최초의 공식 프레임워크를 제안합니다. 이는 IBM Research와 MIT의 공동 연구 결과물로, Sadie Asif가 주도했습니다. 저자들은 최근 몇 달간 프로덕션 엔터프라이즈 에이전트 RAG 시스템에서 나타난 취약점을 문서화하고, 기존 인프라를 중단하지 않고 적용할 수 있는 구체적인 해결책을 제안합니다.

공유 KV 캐시란 무엇이며 왜 사용합니까?

고전적인 LLM 워크플로우에서 각 API 호출은 프롬프트를 위한 새로운 KV 캐시를 생성합니다——이는 추론이 원자적이며 호출을 넘어 지속되는 상태가 없음을 의미합니다. 엔터프라이즈 멀티에이전트 시스템에서 이 모델은 비용이 많이 듭니다. 다섯 개의 에이전트가 독립적으로 동일한 기밀 PDF를 처리한다면, 각각이 동일한 KV 캐시를 처음부터 재구성해야 하며, 이는 5배의 GPU 메모리와 5배의 컴퓨팅 자원을 소비합니다.

공급업체들이 점점 더 많이 구현하는 최적화가 공유 KV 캐시입니다. PDF를 한 번만 처리하여 약 200MB의 GPU 메모리를 차지하는 KV 캐시를 생성하고, 모든 에이전트가 해당 캐시에 대한 포인터를 받습니다. 각 에이전트의 추론은 미리 채워진 상태에서 시작하여 자신만의 특정 프롬프트 접미사만 추가합니다. 저자들이 언급하듯 비용 절감은 3~5배에 달하며, 고용량 워크로드에서는 지속 가능한 배포와 불가능한 배포의 차이를 만듭니다.

데이터 유출은 어떻게 발생합니까?

KV 캐시는 일반 텍스트가 아닙니다——원본 문서의 의미적 정보를 인코딩하는 임베딩 벡터입니다. 그러나 이 벡터들이 완전히 비가역 변환된 것은 아닙니다. 어텐션 메커니즘은 저자들이 「어텐션 프로빙」이라고 부르는 전략을 통해 이로부터 상당한 정보를 추출할 수 있습니다.

구체적인 공격 방식: 에이전트 B는 공유 KV 캐시에 대한 합법적인 접근 권한을 갖고 있습니다(예를 들어, 관련 문서를 처리하기 때문에). 에이전트 B는 어텐션 레이어 515를 통해 특정 KV 캐시 영역을 표적으로 하는 특정 프롬프트를 만들어 임베딩에서 원본 PDF의 개별 민감한 엔터티——클라이언트 이름, 계약 번호, 금액——를 재구성할 수 있습니다. 저자들은 재구성이 완벽하지는 않지만 명명된 엔터티에 대해 6080%의 정확한 재현율을 달성함을 입증합니다.

이 공격 벡터가 중요한 이유는 엔터프라이즈 사용자들이 일반적으로 「에이전트는 자신의 프롬프트에만 접근할 수 있다」고 믿기 때문입니다. 현실은 에이전트가 보안 경계를 넘어 공유된 전체 문서의 KV 캐시에 접근할 수 있다는 것입니다——이는 어떤 프로덕션 API 문서에도 기록되어 있지 않았습니다.

LCGuard는 그 채널을 어떻게 차단합니까?

LCGuard는 두 가지 방어선을 추가합니다.

첫 번째 방어선——암호화 격리: 각 KV 캐시는 문서의 보안 도메인 출처에 따라 달라지는 키로 암호화됩니다. 해당 도메인에 속하지 않는 에이전트는 캐시 힌트(존재 여부, 크기)를 볼 수 있지만 사용할 수는 없습니다——복호화는 에이전트가 적절한 도메인 자격 증명을 제시할 때만 이루어집니다. 즉, 「재무/기밀」 도메인의 PDF는 물리적으로 동일한 GPU 메모리를 차지하더라도 마케팅 에이전트가 복호화할 수 없는 KV 캐시를 갖습니다.

두 번째 방어선——런타임 어텐션 프로브 감지기: 백엔드가 어텐션 패턴을 실시간으로 모니터링하고 의심스러운 패턴을 인식합니다. 일반적인 프로브는 대상 KV 슬롯에서의 어텐션 변동을 최대화하는 의사 난수 프롬프트 구조를 사용합니다. LCGuard는 95% 이상의 정밀도로 이 패턴을 감지합니다(저자들은 50,000건의 합법적인 쿼리에서 낮은 오탐지율을 문서화했습니다).

구현 오버헤드와 호환성

LCGuard는 추론 엔진(vLLM, TGI, SGLang)의 어텐션 레이어 수정이 필요합니다. 저자들은 vLLM용 참조 구현을 공개했습니다. 처리량 오버헤드는 최악의 시나리오(모든 캐시가 암호화됨)에서 8~~12%, 일반적인 시나리오(암호화된 캐시와 일반 캐시 영역의 혼합)에서 3~~5%입니다. 규정 준수 요건을 충족해야 하는 엔터프라이즈 테넌트에게는 허용 가능한 비용입니다.

연구는 LCGuard가 보안 도메인 간에 공유 KV 캐시를 사용하는 엔터프라이즈 배포의 기본 활성화 옵션이 되어야 한다는 권고로 마무리됩니다. 이 방어 없이는 조직이 자신도 모르게 자체 데이터 분류 정책을 위반하게 됩니다.

arXiv:2605.22786：LCGuard, 멀티에이전트 시스템에서 공유 KV 캐시를 에이전트 간 데이터 유출로부터 보호합니다

공유 KV 캐시란 무엇이며 왜 사용합니까?

데이터 유출은 어떻게 발생합니까?

LCGuard는 그 채널을 어떻게 차단합니까?

구현 오버헤드와 호환성

자주 묻는 질문

출처

관련 뉴스