PyTorch SMG:LLMサービングでのCPU/GPU分離がLlama 3.3 70B FP8の出力スループットを3.5倍に、Google Cloud・Oracle・Alibabaで本番稼働中
LightSeek Foundationは2026年4月30日にPyTorchブログでShepherd Model Gateway(SMG)を発表しました。これはCPUバウンドタスク(トークナイゼーション、MCPオーケストレーション、チャット履歴、マルチモーダル前処理)をGPUプロセスから独立したgRPCレイヤーに移動するRustゲートウェイです。Llama 3.3 70B FP8は1150対327の出力トークン/秒(3.5倍スループット)を達成し、ソリューションはGoogle Cloud、Oracle Cloud、Alibaba Cloud、TogetherAIで既に本番稼働しています。