PyTorch SMG: CPU-GPU-Disaggregation beim LLM-Serving liefert 3,5× Output-Durchsatz für Llama 3.3 70B FP8, bereits im Produktionseinsatz bei Google Cloud, Oracle und Alibaba
Die LightSeek Foundation präsentierte am 30. April 2026 im PyTorch-Blog Shepherd Model Gateway (SMG) — ein Rust-Gateway, das CPU-gebundene Aufgaben (Tokenisierung, MCP-Orchestrierung, Chat-Verlauf, multimodales Preprocessing) aus dem GPU-Prozess in eine separate gRPC-Schicht verlagert. Llama 3.3 70B FP8 erreicht 1.150 vs. 327 Output-Token/s (3,5× Durchsatz), und die Lösung ist bereits im Produktionseinsatz bei Google Cloud, Oracle Cloud, Alibaba Cloud und TogetherAI.