GitHub: 에이전트 워크플로 최적화로 19%~62% 토큰 절감 달성
GitHub이 프로덕션 에이전트 워크플로를 계측하고 토큰 낭비의 세 가지 주요 원인을 파악했다. 불필요한 MCP 도구, 결정론적 데이터 조회, 잘못 구성된 Bash 규칙이다. 최적화를 통해 워크플로별 19%~62%의 토큰 절감을 달성했다.
이 기사는 AI가 1차 출처를 기반으로 생성했습니다.
GitHub 엔지니어링 팀은 2026년 5월 7일 자체 프로덕션 에이전트 워크플로 분석을 발표했다. 토큰 손실과 최적화 조치에 대한 구체적인 수치를 담은 이 글은 유사 시스템을 구축하는 팀에게 유익한 투명한 비용 공개의 드문 사례다.
토큰 낭비의 세 가지 주요 원인
첫째, 불필요한 MCP 도구 스키마. 40개 도구가 포함된 전체 GitHub MCP 서버는 매 턴마다 10~15KB의 컨텍스트를 추가하지만, 대부분의 워크플로는 몇 가지 도구만 사용한다. MCP 구성에서 사용하지 않는 도구를 제거하면 호출당 컨텍스트 크기가 8~12KB 줄어 실행당 수천 토큰을 절약할 수 있다. MCP(모델 컨텍스트 프로토콜)는 도구가 언어 모델에 스키마를 노출하는 표준이다.
둘째, 결정론적 데이터 조회. 에이전트의 많은 단계는 추론이 필요 없는 읽기 작업이다. 이슈 메타데이터 조회 같은 것이 그 예다. 그러한 조회를 에이전트 이전 CLI 단계로 이동해 모델 시작 전에 실행하면 해당 호출은 LLM 추론 루프에서 완전히 제거된다.
셋째, 잘못 구성된 규칙. Bash 허용 목록의 한 줄 오류가 워크플로에서 적절한 도구를 호출하는 대신 컴파일러 출력을 수동으로 재구성하는 64단계 폴백 루프를 야기했다.
워크플로별 구체적인 절감 결과
최적화된 다섯 가지 워크플로는 다음 결과를 달성했다. Auto-Triage Issues 62% 감소(109회 이상 실행), Security Guard 43%, Smoke Claude 59%, Daily Compiler Quality 19%, Community Attribution 37%. Auto-Triage만 최적화해도 관찰 기간 동안 약 780만 유효 토큰을 절약했다.
Effective Tokens 지표란 무엇인가?
GitHub은 다양한 모델 계층에 걸쳐 비용을 정규화하기 위해 ET = m × (1.0 × I + 0.1 × C + 4.0 × O) 공식을 개발했다. I는 입력 토큰, C는 캐시 읽기 토큰, O는 출력 토큰, m은 모델 배수다. 출력 토큰은 가장 비싼 유형으로 4× 가중치를 가지며, 캐시 읽기 토큰은 0.1×에 불과하다. 이 지표는 서로 다른 모델과 캐싱 패턴을 사용하는 워크플로를 직접 비교할 수 있게 해준다. 팀은 모델별로 달러 비용을 별도로 추적할 필요가 없어진다.
자주 묻는 질문
- Effective Tokens 지표란 무엇인가요?
- ET = m × (1.0 × I + 0.1 × C + 4.0 × O) 공식으로 비용에 따라 토큰 유형별 가중치를 부여한다. 입력 1×, 캐시 읽기 0.1×, 출력 4×; m은 모델 배수.
- MCP 도구 스키마는 실제로 얼마나 무거운가요?
- 40개 도구가 포함된 전체 GitHub MCP 서버는 턴마다 10~15KB 컨텍스트를 추가하며, 사용하는 도구로 줄이면 8~12KB를 절약해 실행당 수천 토큰을 아낄 수 있다.
- 64단계 루프 사례는 무엇인가요?
- Bash 허용 목록의 한 줄 잘못된 구성으로 인해 워크플로가 적절한 도구를 호출하는 대신 컴파일러 출력을 수동으로 재구성하게 되어 64단계 폴백 루프가 발생했다.