PyTorch SMG: CPU/GPU 분리, Llama 3.3 처리량 3.5배

LightSeek Foundation은 2026년 4월 30일 PyTorch 블로그에서 Shepherd Model Gateway(SMG)를 발표했습니다. 이는 CPU 바운드 작업(토크나이제이션, MCP 오케스트레이션, 채팅 기록, 멀티모달 전처리)을 GPU 프로세스에서 별도의 gRPC 레이어로 이전하는 Rust 게이트웨이입니다. Llama 3.3 70B FP8은 327 대비 1,150 출력 토큰/초(3.5배 처리량)를 달성하며, 솔루션은 이미 Google Cloud, Oracle Cloud, Alibaba Cloud, TogetherAI에서 프로덕션 운영 중입니다.

LightSeek Foundation은 2026년 4월 30일 공식 PyTorch 블로그에서 **Shepherd Model Gateway(SMG)**를 발표했습니다. 이 프로젝트는 현대 LLM 서빙에서 CPU가 값비싼 GPU 클러스터의 병목이 되고 있다고 주장합니다. SMG는 모든 CPU 바운드 작업을 GPU 프로세스에서 gRPC를 통해 엔진과 통신하는 별도의 Rust 게이트웨이 레이어로 이전합니다. 저자 — Simo Lin, Chang Su, Keyang Ru — 는 아키텍처를 “GPU는 텐서 수학을 처리하고, 나머지는 모두 별도의 서빙 레이어에 속한다”로 설명합니다.

분리가 실제로 해결하는 문제는 무엇입니까?

Python GIL(전역 인터프리터 잠금)은 하위에서 Rust나 C++ 토크나이저 라이브러리가 실행되더라도 토크나이제이션 및 디토크나이제이션과 같은 CPU 바운드 작업을 단일 스레드 실행으로 제한합니다. SGLang과 vLLM에서는 실제 프로덕션 트래픽 하에서 이것이 병목이 됩니다 — GIL 바운드 토크나이제이션의 1마이크로초는 수십만 달러 가치의 GPU가 유휴 상태인 1마이크로초를 의미합니다. 대규모 프리필-디코드 분리 서빙 및 전문가 병렬 처리에서 이것은 하드웨어 활용도의 상당한 손실로 누적됩니다.

SMG 아키텍처는 어떻게 구성되어 있습니까?

SMG는 일반적으로 GPU 프로세스와 얽혀 있는 모든 CPU 바운드 워크로드를 식별합니다: 토크나이제이션, 디토크나이제이션, 추론 출력 파싱, 함수 호출 추출, MCP 도구 오케스트레이션, 멀티모달 전처리, 채팅 기록 관리, 구조화된 출력 검증, 정지 시퀀스 감지. 이 모든 작업을 최소한의 gRPC 프로토콜을 통해 엔진과 통신하는 Rust 게이트웨이로 이전했습니다 — 엔진은 사전 토크나이즈된 입력 데이터를 받고 출력 토큰을 스트리밍하며, 그 외 모든 것은 게이트웨이가 처리합니다. Rust의 토크나이저는 L0 정확 일치(반복된 프롬프트용)와 L1 특수 토큰 경계의 접두사 인식 두 레벨 캐시를 사용합니다.

SMG는 개발 팀에게 무엇을 제공합니까?

단일 SMG 프로세스가 전체 플릿의 프론트엔드가 됩니다 — 여러 모델, 여러 엔진, 단일 입력 포인트. SGLang, vLLM, TensorRT-LLM, MLX 백엔드를 통해 동시에 요청을 라우팅할 수 있으며, 외부 공급자로 OpenAI, Anthropic, Google Gemini, AWS Bedrock, Azure OpenAI를 지원합니다. 네이티브 API에는 Chat Completions, Responses API, Anthropic Messages API(ThinkingConfig 및 인터리브 추론 블록 포함), Gemini Interactions API, WebSocket/WebRTC를 통한 실시간 API가 포함됩니다. 저자들은 멀티모달 구성 요소를 특히 강조합니다 — HuggingFace transformers 이미지 프로세서의 일부를 Python에서 Rust로 재작성한 것을 업계 최초로 설명합니다.

오픈소스 LLM 생태계에 왜 중요합니까?

SMG는 추론 엔진과 게이트웨이가 독립적으로 진화해야 한다고 주장합니다: 엔진은 게이트웨이를 건드리지 않고 새로운 GPU 커널과 양자화로 개선될 수 있고, 게이트웨이는 엔진을 건드리지 않고 새로운 파서, 도구, 프로토콜을 얻을 수 있습니다. 양자 간의 경계 인터페이스(PyPI의 smg-grpc-proto)가 안정적인 계약이 됩니다. 프로덕션 배포에는 Google Cloud, Oracle Cloud, Alibaba Cloud, TogetherAI가 포함되며 — 분리가 더 이상 학문적 개념이 아니라 업계에서의 운영 패턴임을 시사합니다.

자주 묻는 질문

SMG가 해결하는 주요 문제는 무엇입니까?

Python GIL(전역 인터프리터 잠금)은 토크나이제이션 및 도구 오케스트레이션과 같은 CPU 바운드 작업을 단일 스레드 실행으로 제한하여 값비싼 GPU 클러스터를 유휴 상태로 만듭니다. SMG는 해당 작업들을 Python 프로세스 외부의 Rust 게이트웨이로 이전합니다.

실제 성능 향상은 얼마나 됩니까?

Llama 3.3 70B FP8 모델에서 출력 처리량이 327에서 1,150 토큰/초로 급증합니다(3.5배 빠름). 긴 컨텍스트 시나리오에서는 다양한 구성에 걸쳐 평균 처리량이 +12.2% 증가합니다.

누가 이미 프로덕션 환경에서 SMG를 사용하고 있습니까?

Google Cloud, Oracle Cloud, Alibaba Cloud, TogetherAI가 프로덕션 배포로 언급되어 있습니다. 프로젝트는 6개월 만에 13개의 릴리스에 도달했습니다.

PyTorch SMG: LLM 서빙에서 CPU와 GPU 분리로 Llama 3.3 70B FP8 출력 처리량 3.5배 달성, Google Cloud, Oracle, Alibaba에서 이미 프로덕션 운영 중

분리가 실제로 해결하는 문제는 무엇입니까?

SMG 아키텍처는 어떻게 구성되어 있습니까?

SMG는 개발 팀에게 무엇을 제공합니까?

오픈소스 LLM 생태계에 왜 중요합니까?

자주 묻는 질문

출처

관련 뉴스