🔴 🤖 モデル 2026年5月1日金曜日 · 3 分で読めます ·

PyTorch SMG:LLMサービングでのCPU/GPU分離がLlama 3.3 70B FP8の出力スループットを3.5倍に、Google Cloud・Oracle・Alibabaで本番稼働中

編集イラスト:独立したCPUゲートウェイレイヤーがgRPCネットワークでGPUを接続するサーバーラック

LightSeek Foundationは2026年4月30日にPyTorchブログでShepherd Model Gateway(SMG)を発表しました。これはCPUバウンドタスク(トークナイゼーション、MCPオーケストレーション、チャット履歴、マルチモーダル前処理)をGPUプロセスから独立したgRPCレイヤーに移動するRustゲートウェイです。Llama 3.3 70B FP8は1150対327の出力トークン/秒(3.5倍スループット)を達成し、ソリューションはGoogle Cloud、Oracle Cloud、Alibaba Cloud、TogetherAIで既に本番稼働しています。

LightSeek Foundationは2026年4月30日、公式PyTorchブログで**Shepherd Model Gateway(SMG)**を発表しました。このプロジェクトは、現代のLLMサービングではCPUが高価なGPUクラスターのボトルネックになっていると主張しています。SMGはすべてのCPUバウンドタスクをGPUプロセスから独立したRustゲートウェイレイヤーに移動し、gRPCを介してエンジンと通信します。著者——Simo Lin、Chang Su、Keyang Ru——はアーキテクチャを「GPUはテンソル数学を処理し、それ以外はすべて独立したサービングレイヤーに属する」と表現しています。

分離が実際に解決する問題とは?

Python GIL(グローバルインタープリターロック)は、下にRustやC++トークナイザーライブラリが動いていても、トークナイゼーションやデトークナイゼーションなどのCPUバウンドタスクをシングルスレッド実行に制限します。SGLangとvLLMでは、これが実際の本番トラフィックのもとでボトルネックになります——GILバウンドのトークナイゼーションの1マイクロ秒は、数十万ドル相当のGPUがアイドル状態になる1マイクロ秒を意味します。大規模なprefill-decode分離サービングとエキスパートパラレリズムでは、これがハードウェア利用率の大きな損失として累積します。

SMGのアーキテクチャはどのように構成されているか?

SMGはGPUプロセスに絡み合っているすべてのCPUバウンドワークロードを特定します:トークナイゼーション、デトークナイゼーション、推論出力の解析、ファンクションコールの抽出、MCPツールオーケストレーション、マルチモーダル前処理、チャット履歴管理、構造化出力検証、ストップシーケンス検出。これらのタスクをすべて最小限のgRPCプロトコルを介してエンジンと通信するRustゲートウェイに移動しました——エンジンは事前トークナイゼーションされた入力データを受け取り出力トークンをストリーミングし、それ以外はすべてゲートウェイが処理します。RustのトークナイザーはL0完全一致(繰り返しプロンプト用)とL1特殊トークン境界でのプレフィックス対応の2層キャッシュを使用します。

SMGは開発チームに何をもたらすか?

単一のSMGプロセスが全フリートをフロントエンドします——複数のモデル、複数のエンジン、単一の入力ポイント。SGLang、vLLM、TensorRT-LLM、MLXバックエンドを介して同時にリクエストをルーティングでき、外部プロバイダーとしてOpenAI、Anthropic、Google Gemini、AWS Bedrock、Azure OpenAIをサポートします。ネイティブAPIにはChat Completions、Responses API、Anthropic Messages API(ThinkingConfigとインターリーブ推論ブロック付き)、Gemini Interactions API、WebSocket/WebRTCを介するリアルタイムAPIが含まれます。著者はマルチモーダルコンポーネントを特に強調しています——HuggingFace transformersの画像プロセッサーの一部をPythonからRustに書き直したことをIndustry Firstと説明しています。

なぜこれはオープンソースLLMエコシステムにとって重要か?

SMGは推論エンジンとゲートウェイが独立して進化すべきだと主張します:エンジンはゲートウェイに触れることなく新しいGPUカーネルと量子化で改善でき、ゲートウェイはエンジンに触れることなく新しいパーサー、ツール、プロトコルを取得できます。両者間の境界インターフェース(PyPI上のsmg-grpc-proto)は安定した契約になります。本番デプロイメントにはGoogle Cloud、Oracle Cloud、Alibaba Cloud、TogetherAIが含まれており——分離がもはや学術的な概念ではなく業界での運用パターンであることを示唆しています。

よくある質問

SMGが解決する主な問題は何ですか?
Python GIL(グローバルインタープリターロック)はトークナイゼーションやツールオーケストレーションなどのCPUバウンドタスクをシングルスレッド実行に制限し、高価なGPUクラスターをアイドル状態にします。SMGはそれらのタスクをすべてPythonプロセスの外にあるRustゲートウェイに移動します。
実際のパフォーマンス向上はどのくらいですか?
Llama 3.3 70B FP8モデルで出力スループットが327から1150トークン/秒に急増します(3.5倍高速)。長コンテキストシナリオでは様々な設定にわたる平均スループットが+12.2%となります。
誰がすでに本番環境でSMGを使用していますか?
Google Cloud、Oracle Cloud、Alibaba Cloud、TogetherAIが本番デプロイメントとして挙げられています。プロジェクトは6ヶ月で13のリリースに達しました。
🤖

この記事はAIにより一次情報源から生成されました。