🟡 🤝 에이전트 2026년 4월 25일 토요일 · 3 분 읽기

arXiv:2604.21816: 「Tool Attention Is All You Need」가 MCP Tax 제거 — 에이전트 워크플로우 턴당 토큰 소비 95% 감소

arXiv:2604.21816 ↗

편집 일러스트: Tool Attention MCP Tax — 에이전트 워크플로우 최적화

왜 중요한가

연구자 Anuj Sadani와 Deepak Kumar가 2026년 4월 23일 ArXiv에 논문을 발표하여 이른바 MCP Tax 문제——턴당 1만~6만 토큰을 소비하는 eager schema injection——를 해결했습니다. 그들의 Tool Attention 접근법은 토큰 소비를 95% 감소시키고 컨텍스트 활용률을 24%에서 91%로 향상시킵니다.

연구자 Anuj SadaniDeepak Kumar는 2026년 4월 23일 ArXiv에 「Tool Attention Is All You Need」(arXiv:2604.21816)라는 제목의 논문을 발표하여 Model Context Protocol(MCP)의 심각한 구조적 문제——이른바 MCP Tax——를 식별하고 해결했습니다. 이는 일반적인 멀티 서버 MCP 배포에서 각 턴에 도구 스키마 주입에 단순히 ‘소비되는’ 1만~6만 토큰의 숨겨진 비용입니다.

이 논문은 엔터프라이즈 환경에서 MCP 통합이 폭발적으로 증가하는 시점에 발표되었습니다. 그러한 환경에서는 하나의 에이전트 시스템이 여러 서버를 통해 수십 개의 도구를 동시에 관리하는 경우가 많습니다. 이러한 구성은 이전까지 속도와 추론 품질 모두를 손상시키는 숨겨진 비용을 안고 있었습니다.

MCP Tax는 정확히 무엇입니까?

저자들은 문제를 eager schema injection——등록된 모든 도구의 완전한 JSON 스키마 설명이 모델이 그중 95%를 사용하지 않더라도 모든 모델 호출에 컨텍스트로 주입되는 표준 MCP 패턴——으로 식별합니다. 서버 수와 스키마 복잡성에 따라 턴당 토큰 오버헤드는 1만~6만 토큰에 달합니다.

결과는 두 가지입니다. 첫째, KV 캐시가 팽창하고 추론이 느려지며 비용이 증가합니다. 둘째, 컨텍스트 활용률이 약 **70%**의 임계값을 초과하면 ‘컨텍스트 부식’ 현상에 관한 문헌에서 잘 문서화된 것처럼 추론 품질이 크게 저하됩니다.

Tool Attention은 어떻게 문제를 해결합니까?

제안된 접근법은 에이전트와 MCP 서버 사이에 위치하는 미들웨어 레이어로, 세 가지 보완적 구성 요소를 결합합니다:

  1. Intent Schema Overlap(ISO) 점수 — 문장 임베딩 모델을 사용하여 사용자 쿼리와 각 도구 설명 간의 의미적 유사도를 측정하고 관련성 순으로 도구를 랭킹합니다.
  2. State-Aware Gating Function — 도구를 컨텍스트에 주입하기 전에 전제조건과 접근 범위를 확인하여, 인증이나 특정 상태가 필요한 도구가 해당 조건이 충족될 때까지 컨텍스트에 나타나지 않도록 합니다.
  3. Two-Phase Lazy Schema Loader — 컨텍스트에는 사용 가능한 모든 도구의 압축 요약 풀만 유지하며, ISO 점수가 가장 높은 상위 k개 도구에만 전체 JSON 스키마 설명이 승격됩니다.

이 접근법은 경험 많은 개발자의 행동에 해당합니다: ‘내가 할 수 있는 것’의 목록만 머릿속에 유지하고, 도구를 호출하기로 결정했을 때만 API 세부 사항을 참조합니다.

실제로 얼마나 절약됩니까?

저자들은 실제 프로덕션 배포에 기반하여 보정된 6개의 MCP 서버에 120개 도구가 분산된 시뮬레이션 환경에서 평가를 수행했습니다. 결과는 극적입니다: 턴당 토큰 소비량이 47,300개에서 2,400개로 감소하여 95% 감소에 해당합니다. 컨텍스트 활용률은 24%에서 91%로 향상되어, 에이전트가 이제 추론 품질 손실 없이 더 복잡한 대화 기록을 처리할 수 있게 됩니다.

저자들은 예측 지표가 측정된 토큰 수와 공개 텔레메트리에서 도출된 것이며 라이브 LLM 에이전트 테스트에서 나온 것이 아님을 명시적으로 언급합니다. 이는 중요한 한계로, 프로덕션에서의 실제 감소량은 ISO 점수 임베딩 모델의 품질과 보정의 현실성에 따라 달라집니다.

이것이 멀티 에이전트 시스템에 의미하는 것은 무엇입니까?

논문의 핵심 결론은 **“프로토콜 수준의 효율성이, 원시 컨텍스트 길이가 아니라, 확장 가능한 에이전트 시스템의 제약 조건”**이라는 것입니다. 다시 말해, 100만 토큰 컨텍스트를 가진 모델은 각 턴에 6만 토큰이 낭비되는 문제를 해결하지 못합니다.

Claude, GPT 또는 오픈소스 모델 위에 멀티 에이전트 시스템을 구축하는 개발 팀에게 이 논문은 구체적인 아키텍처 변경을 제안합니다: 지연 스키마 로딩을 수행하는 미들웨어 레이어 도입, 동일 에이전트의 연속 호출 간 KV 캐시 공유 구현, 그리고 컨텍스트 윈도우 용량에 집중하는 대신 실제 컨텍스트 활용률을 주요 지표로 측정하는 것. 코드는 논문에서 참조된 GitHub 저장소에서 이용할 수 있습니다.

🤖

이 기사는 AI가 1차 출처를 기반으로 생성했습니다.