PyTorch SMG:LLM推理中CPU与GPU分离使Llama 3.3 70B FP8输出吞吐量提升3.5倍,已在Google云、Oracle和阿里云投入生产
LightSeek Foundation于2026年4月30日在PyTorch博客上发布了Shepherd Model Gateway(SMG)——一个将CPU绑定任务(分词、MCP编排、聊天历史、多模态预处理)从GPU进程迁移到独立gRPC层的Rust网关。Llama 3.3 70B FP8实现了1150对比327输出token/秒(3.5倍吞吐量),该方案已在Google云、Oracle云、阿里云和TogetherAI投入生产。