PyTorch SMG: CPU/GPU-Disaggregation, 3,5× Durchsatz Llama 3.3

Die LightSeek Foundation präsentierte am 30. April 2026 im PyTorch-Blog Shepherd Model Gateway (SMG) — ein Rust-Gateway, das CPU-gebundene Aufgaben (Tokenisierung, MCP-Orchestrierung, Chat-Verlauf, multimodales Preprocessing) aus dem GPU-Prozess in eine separate gRPC-Schicht verlagert. Llama 3.3 70B FP8 erreicht 1.150 vs. 327 Output-Token/s (3,5× Durchsatz), und die Lösung ist bereits im Produktionseinsatz bei Google Cloud, Oracle Cloud, Alibaba Cloud und TogetherAI.

Die LightSeek Foundation veröffentlichte am 30. April 2026 im offiziellen PyTorch-Blog Shepherd Model Gateway (SMG) — ein Projekt, das argumentiert, dass die CPU im modernen LLM-Serving zum Engpass für teure GPU-Cluster geworden ist. SMG verlagert alle CPU-gebundenen Aufgaben aus dem GPU-Prozess in eine separate Rust-Gateway-Schicht, die mit dem Engine über gRPC kommuniziert. Die Autoren — Simo Lin, Chang Su und Keyang Ru — beschreiben die Architektur als: GPUs sollen Tensorberechnungen durchführen, alles andere gehört in eine separate Serving-Schicht.

Welches Problem löst Disaggregation wirklich?

Pythons GIL (Global Interpreter Lock) begrenzt CPU-gebundene Aufgaben wie Tokenisierung und Detokenisierung auf Single-Thread-Ausführung, selbst wenn darunter eine Rust- oder C++-Tokenizer-Bibliothek läuft. In SGLang und vLLM wird dies unter realem Produktionsverkehr zum Engpass — jede Mikrosekunde GIL-gebundener Tokenisierung ist eine Mikrosekunde, in der eine GPU im Wert von Hunderttausenden von Dollar untätig ist. Bei großem Prefill-Decode-disaggregierten Serving mit Expert-Parallelism summiert sich das zu einem erheblichen Verlust an Hardware-Auslastung.

Wie ist die SMG-Architektur strukturiert?

SMG identifiziert jeden CPU-gebundenen Workload, der andernfalls mit dem GPU-Prozess verflochten ist: Tokenisierung, Detokenisierung, Parsing von Reasoning-Outputs, Extraktion von Function-Calls, MCP-Tool-Orchestrierung, multimodales Preprocessing, Chat-History-Management, Structured-Output-Validierung, Stop-Sequence-Erkennung. Alle diese Aufgaben wurden in ein Rust-Gateway verlagert, das mit dem Engine über ein minimales gRPC-Protokoll kommuniziert — der Engine empfängt vortokenisierte Eingabedaten und streamt Ausgabe-Token, während das Gateway alles andere erledigt. Die Tokenisierung in Rust verwendet einen zweistufigen Cache: L0 Exact-Match für wiederholte Prompts und L1 Prefix-Aware an den Grenzen spezieller Token.

Was bietet SMG Entwicklerteams?

Ein einziger SMG-Prozess bedient eine gesamte Flotte — mehrere Modelle, mehrere Engines, ein Einstiegspunkt. Er kann Anfragen über SGLang, vLLM, TensorRT-LLM und MLX-Backends gleichzeitig weiterleiten und unterstützt OpenAI, Anthropic, Google Gemini, AWS Bedrock und Azure OpenAI als externe Provider. Native APIs umfassen Chat-Completions, Responses API, Anthropic-Messages-API (mit ThinkingConfig und verschachtelten Reasoning-Blöcken), Gemini-Interactions-API und Realtime API über WebSockets/WebRTC. Die Autoren heben die multimodale Komponente besonders hervor — sie haben Teile der HuggingFace-Transformers-Bildverarbeitung von Python nach Rust umgeschrieben, was sie als branchenweit erstmalig bezeichnen.

Warum ist dies für das Open-Source-LLM-Ökosystem wichtig?

SMG argumentiert, dass Inferenz-Engine und Gateway unabhängig voneinander weiterentwickelt werden sollten: Der Engine kann mit neuen GPU-Kernels und Quantisierung verbessert werden, ohne das Gateway zu berühren, während das Gateway neue Parser, Tools und Protokolle erhält, ohne den Engine zu berühren. Die Grenzschnittstelle zwischen ihnen (smg-grpc-proto auf PyPI) wird zum stabilen Vertrag. Produktionsdeployments umfassen Google Cloud, Oracle Cloud, Alibaba Cloud und TogetherAI — was darauf hindeutet, dass Disaggregation kein akademisches Konzept mehr ist, sondern ein operatives Muster in der Industrie.

Häufig gestellte Fragen

Was ist das Hauptproblem, das SMG löst?

Pythons GIL (Global Interpreter Lock) begrenzt CPU-gebundene Aufgaben wie Tokenisierung und Tool-Orchestrierung auf Single-Thread-Ausführung, was teure GPU-Cluster ausbremst. SMG verlagert all diese Aufgaben in ein Rust-Gateway außerhalb des Python-Prozesses.

Wie hoch ist der tatsächliche Leistungsgewinn?

Beim Llama-3.3-70B-FP8-Modell steigt der Output-Durchsatz von 327 auf 1.150 Token/s (3,5× schneller). Bei Long-Context-Szenarien beträgt der Durchschnitt +12,2 % über verschiedene Konfigurationen.

Wer nutzt SMG bereits im Produktionseinsatz?

Google Cloud, Oracle Cloud, Alibaba Cloud und TogetherAI sind als Produktionsdeployments aufgeführt. Das Projekt erreichte in sechs Monaten dreizehn Releases.

PyTorch SMG: CPU-GPU-Disaggregation beim LLM-Serving liefert 3,5× Output-Durchsatz für Llama 3.3 70B FP8, bereits im Produktionseinsatz bei Google Cloud, Oracle und Alibaba

Welches Problem löst Disaggregation wirklich?

Wie ist die SMG-Architektur strukturiert?

Was bietet SMG Entwicklerteams?

Warum ist dies für das Open-Source-LLM-Ökosystem wichtig?

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten