PyTorch SMG: LLM 서빙에서 CPU와 GPU 분리로 Llama 3.3 70B FP8 출력 처리량 3.5배 달성, Google Cloud, Oracle, Alibaba에서 이미 프로덕션 운영 중
LightSeek Foundation은 2026년 4월 30일 PyTorch 블로그에서 Shepherd Model Gateway(SMG)를 발표했습니다. 이는 CPU 바운드 작업(토크나이제이션, MCP 오케스트레이션, 채팅 기록, 멀티모달 전처리)을 GPU 프로세스에서 별도의 gRPC 레이어로 이전하는 Rust 게이트웨이입니다. Llama 3.3 70B FP8은 327 대비 1,150 출력 토큰/초(3.5배 처리량)를 달성하며, 솔루션은 이미 Google Cloud, Oracle Cloud, Alibaba Cloud, TogetherAI에서 프로덕션 운영 중입니다.