SAGA：64-GPU 클러스터에서 에이전트 스케줄링 1.64배 단축

Q: SAGA에서 '워크플로우 원자화'란 무엇을 의미합니까?

스케줄러가 각 LLM 호출을 독립적으로 처리하여（그 사이에 GB 단위의 중간 상태를 폐기하는 대신）, SAGA는 전체 에이전트 워크플로우를 하나의 분리 불가능한 단위로 처리합니다. 이를 통해 KV 캐시 예측, 세션 친화성 배치, 더 나은 GPU 메모리 활용이 가능해집니다.

Q: 주요 기술적 성과는 무엇입니까?

작업 완료 시간 기하 평균 1.64배 단축(p<0.001), Bélády 최적 대비 1.31배 KV 캐시 효율, GPU 메모리 활용률 1.22배 개선, SLO 달성률 99.2%. 트레이드오프로 배치 스케줄링 대비 최대 처리량이 약 30% 낮습니다.

Q: 이 논문은 어디서 발표됩니까?

HPDC 2026——제35회 고성능 병렬 및 분산 컴퓨팅 국제 심포지엄, 2026년 7월 13-16일, 오하이오주 클리블랜드. 논문은 ArXiv에서 ID 2605.00528로 이용 가능합니다.

Dongxin Guo, Jikun Wu, Siu Ming Yiu 팀은 2026년 5월 1일 SAGA를 발표했습니다. GPU 클러스터 상의 AI 에이전트를 위한 워크플로우 원자화 스케줄러로, 개별 LLM 호출 대신 전체 에이전트 워크플로우를 하나의 스케줄 가능한 단위로 처리합니다. 64-GPU 클러스터에서 작업 완료 시간의 기하 평균 1.64배 단축과 멀티테넌트 부하에서 SLO 달성률 99.2%를 실현합니다. 논문은 HPDC 2026（클리블랜드, 2026년 7월 13-16일）에 채택되었습니다.

Dongxin Guo, Jikun Wu, Siu Ming Yiu 팀은 2026년 5월 1일 ArXiv에 논문 **「SAGA: GPU 클러스터에서 AI 에이전트 추론을 위한 워크플로우 원자화 스케줄링」**을 발표했습니다. 이 논문은 HPDC 2026（제35회 고성능 병렬 및 분산 컴퓨팅 국제 심포지엄, 2026년 7월 13-16일, 클리블랜드）에 채택되었습니다.

SAGA는 어떤 문제를 해결하는가?

기존 GPU 스케줄러는 LLM에 대한 각 API 호출을 독립적인 요청으로 처리하여, 호출이 끝나면 GB 단위의 중간 상태(KV 캐시, 어텐션 컨텍스트, 임시 메모리)를 폐기합니다. 이는 단일 워크플로우가 대량의 컨텍스트를 공유하는 수십 개의 연속 호출을 포함하는 AI 에이전트에게는 비효율적입니다.

저자들은 이 문제를 다음과 같이 표현합니다: 「GPU 스케줄러는 각 호출을 독립적으로 처리하여 GB 단위의 중간 상태를 폐기한다」. 그 결과, 몇 초면 끝나야 할 에이전트가 스케줄러가 메모리에 남겨두어야 할 상태를 계속 다시 로드하기 때문에 수분이 걸리는 경우가 많습니다.

시스템은 어떻게 문제를 해결하는가?

SAGA는 전체 에이전트 워크플로우를 스케줄링의 원자 단위로 처리합니다. 기술적으로 세 가지 핵심 메커니즘을 사용합니다:

에이전트 실행 그래프(Agent Execution Graphs) — 워크플로우 내 의존성 모델로 나중에 필요한 KV 캐시 페이지를 예측 가능하게 함
세션 친화성 배치(Session-affinity batching) — 상태를 잃지 않고 GPU 간에 부하를 분산하면서 관련 요청을 공동 배치
공정성 메커니즘 — 하나의 장기 실행 워크플로우가 다른 테넌트를 차단하는 것을 방지

KV 캐시 예측은 Bélády 최적 오프라인 알고리즘의 1.31배를 달성합니다——Bélády 알고리즘은 미래를 아는 이상적인 캐시 교체의 이론적 상한선입니다. 온라인（미래를 모르는 상태）에서 1.31배를 달성하는 것은 중요한 성과입니다.

개선 효과는 얼마나 큰가?

64-GPU 클러스터에서의 실험은 다음을 보여줬습니다:

작업 완료 시간 기하 평균 1.64배 단축（통계적 유의, p<0.001）
GPU 메모리 활용률 1.22배 개선 — 미사용 KV 캐시 페이지 낭비 감소
멀티테넌트 부하 하에서 SLO 달성률 99.2%（서비스 수준 목표——약속된 지연 한계）

트레이드오프는 클래식 배치 스케줄링 대비 최대 처리량이 약 30% 낮다는 것입니다. 이는 예상된 결과입니다: 시스템은 원시 처리량을 희생하여 더 나은 작업 완료 시간과 메모리 활용을 실현합니다. 사용자가 전체 워크플로우의 응답을 기다리는 에이전트 워크로드에서는 작업 완료 시간이 최대 처리량보다 더 유용한 지표입니다.

이는 에이전트 시스템 운영자에게 무엇을 의미하는가?

상업적 함의는 큽니다: AWS, Azure 또는 Google Cloud가 GPU 풀에 워크플로우 원자화 스케줄링을 채택하면, 에이전트 시스템의 인프라 비용이 1.64배 속도 향상과 유사한 수준으로 감소할 수 있습니다. 매월 에이전트 추론에 수만 달러를 지출하는 기업에게는 자체 구축 대 구매 결정에 영향을 미칠 만큼 중요합니다.

논문은 ArXiv에서 ID 2605.00528로 이용 가능합니다.

자주 묻는 질문

SAGA에서 '워크플로우 원자화'란 무엇을 의미합니까?

스케줄러가 각 LLM 호출을 독립적으로 처리하여（그 사이에 GB 단위의 중간 상태를 폐기하는 대신）, SAGA는 전체 에이전트 워크플로우를 하나의 분리 불가능한 단위로 처리합니다. 이를 통해 KV 캐시 예측, 세션 친화성 배치, 더 나은 GPU 메모리 활용이 가능해집니다.

주요 기술적 성과는 무엇입니까?