SMGが解決する主な問題は何ですか？

Python GIL（グローバルインタープリターロック）はトークナイゼーションやツールオーケストレーションなどのCPUバウンドタスクをシングルスレッド実行に制限し、高価なGPUクラスターをアイドル状態にします。SMGはそれらのタスクをすべてPythonプロセスの外にあるRustゲートウェイに移動します。

実際のパフォーマンス向上はどのくらいですか？

Llama 3.3 70B FP8モデルで出力スループットが327から1150トークン/秒に急増します（3.5倍高速）。長コンテキストシナリオでは様々な設定にわたる平均スループットが+12.2%となります。

誰がすでに本番環境でSMGを使用していますか？

Google Cloud、Oracle Cloud、Alibaba Cloud、TogetherAIが本番デプロイメントとして挙げられています。プロジェクトは6ヶ月で13のリリースに達しました。

PyTorch SMG：CPU/GPU分離、Llama 3.3スループット3.5倍

LightSeek Foundationは2026年4月30日にPyTorchブログでShepherd Model Gateway（SMG）を発表しました。これはCPUバウンドタスク（トークナイゼーション、MCPオーケストレーション、チャット履歴、マルチモーダル前処理）をGPUプロセスから独立したgRPCレイヤーに移動するRustゲートウェイです。Llama 3.3 70B FP8は1150対327の出力トークン/秒（3.5倍スループット）を達成し、ソリューションはGoogle Cloud、Oracle Cloud、Alibaba Cloud、TogetherAIで既に本番稼働しています。

LightSeek Foundationは2026年4月30日、公式PyTorchブログで**Shepherd Model Gateway（SMG）**を発表しました。このプロジェクトは、現代のLLMサービングではCPUが高価なGPUクラスターのボトルネックになっていると主張しています。SMGはすべてのCPUバウンドタスクをGPUプロセスから独立したRustゲートウェイレイヤーに移動し、gRPCを介してエンジンと通信します。著者——Simo Lin、Chang Su、Keyang Ru——はアーキテクチャを「GPUはテンソル数学を処理し、それ以外はすべて独立したサービングレイヤーに属する」と表現しています。

分離が実際に解決する問題とは？

Python GIL（グローバルインタープリターロック）は、下にRustやC++トークナイザーライブラリが動いていても、トークナイゼーションやデトークナイゼーションなどのCPUバウンドタスクをシングルスレッド実行に制限します。SGLangとvLLMでは、これが実際の本番トラフィックのもとでボトルネックになります——GILバウンドのトークナイゼーションの1マイクロ秒は、数十万ドル相当のGPUがアイドル状態になる1マイクロ秒を意味します。大規模なprefill-decode分離サービングとエキスパートパラレリズムでは、これがハードウェア利用率の大きな損失として累積します。

SMGのアーキテクチャはどのように構成されているか？

SMGはGPUプロセスに絡み合っているすべてのCPUバウンドワークロードを特定します：トークナイゼーション、デトークナイゼーション、推論出力の解析、ファンクションコールの抽出、MCPツールオーケストレーション、マルチモーダル前処理、チャット履歴管理、構造化出力検証、ストップシーケンス検出。これらのタスクをすべて最小限のgRPCプロトコルを介してエンジンと通信するRustゲートウェイに移動しました——エンジンは事前トークナイゼーションされた入力データを受け取り出力トークンをストリーミングし、それ以外はすべてゲートウェイが処理します。RustのトークナイザーはL0完全一致（繰り返しプロンプト用）とL1特殊トークン境界でのプレフィックス対応の2層キャッシュを使用します。

SMGは開発チームに何をもたらすか？

単一のSMGプロセスが全フリートをフロントエンドします——複数のモデル、複数のエンジン、単一の入力ポイント。SGLang、vLLM、TensorRT-LLM、MLXバックエンドを介して同時にリクエストをルーティングでき、外部プロバイダーとしてOpenAI、Anthropic、Google Gemini、AWS Bedrock、Azure OpenAIをサポートします。ネイティブAPIにはChat Completions、Responses API、Anthropic Messages API（ThinkingConfigとインターリーブ推論ブロック付き）、Gemini Interactions API、WebSocket/WebRTCを介するリアルタイムAPIが含まれます。著者はマルチモーダルコンポーネントを特に強調しています——HuggingFace transformersの画像プロセッサーの一部をPythonからRustに書き直したことをIndustry Firstと説明しています。

なぜこれはオープンソースLLMエコシステムにとって重要か？

SMGは推論エンジンとゲートウェイが独立して進化すべきだと主張します：エンジンはゲートウェイに触れることなく新しいGPUカーネルと量子化で改善でき、ゲートウェイはエンジンに触れることなく新しいパーサー、ツール、プロトコルを取得できます。両者間の境界インターフェース（PyPI上のsmg-grpc-proto）は安定した契約になります。本番デプロイメントにはGoogle Cloud、Oracle Cloud、Alibaba Cloud、TogetherAIが含まれており——分離がもはや学術的な概念ではなく業界での運用パターンであることを示唆しています。

PyTorch SMG：LLMサービングでのCPU/GPU分離がLlama 3.3 70B FP8の出力スループットを3.5倍に、Google Cloud・Oracle・Alibabaで本番稼働中

分離が実際に解決する問題とは？

SMGのアーキテクチャはどのように構成されているか？

SMGは開発チームに何をもたらすか？

なぜこれはオープンソースLLMエコシステムにとって重要か？

よくある質問

出典

関連ニュース