PyTorch SMG: disaggregacija CPU od GPU u LLM serving-u donosi 3.5× output throughput za Llama 3.3 70B FP8, već u produkciji na Google Cloudu, Oracleu i Alibabi
LightSeek Foundation je 30. travnja 2026. na PyTorch blogu predstavila Shepherd Model Gateway (SMG), Rust gateway koji premješta CPU-bound zadatke (tokenizacija, MCP orkestracija, chat history, multimodal preprocessing) iz GPU procesa u zaseban gRPC sloj. Llama 3.3 70B FP8 postiže 1,150 vs 327 output tokena/s (3.5× throughput), a rješenje je već u produkciji na Google Cloudu, Oracle Cloudu, Alibaba Cloudu i TogetherAI.