🔴 🤖 Modeli Objavljeno: · 3 min čitanja ·

PyTorch SMG: disaggregacija CPU od GPU u LLM serving-u donosi 3.5× output throughput za Llama 3.3 70B FP8, već u produkciji na Google Cloudu, Oracleu i Alibabi

Editorial illustration: server rack s GPU-ima i odvojenim CPU-gateway slojem koji ih spaja gRPC mrežom

LightSeek Foundation je 30. travnja 2026. na PyTorch blogu predstavila Shepherd Model Gateway (SMG), Rust gateway koji premješta CPU-bound zadatke (tokenizacija, MCP orkestracija, chat history, multimodal preprocessing) iz GPU procesa u zaseban gRPC sloj. Llama 3.3 70B FP8 postiže 1,150 vs 327 output tokena/s (3.5× throughput), a rješenje je već u produkciji na Google Cloudu, Oracle Cloudu, Alibaba Cloudu i TogetherAI.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.

LightSeek Foundation je 30. travnja 2026. na službenom PyTorch blogu objavila Shepherd Model Gateway (SMG), projekt koji argumentira da je u modernom LLM serving-u CPU postao usko grlo skupom GPU klasteru. SMG premješta sve CPU-bound zadatke iz GPU procesa u zaseban Rust gateway sloj koji s engine-om komunicira preko gRPC-a. Autori — Simo Lin, Chang Su i Keyang Ru — opisuju arhitekturu kao “GPU-i moraju raditi tensor matematiku, sve ostalo pripada u zaseban serving sloj”.

Koji problem disaggregacija stvarno rješava?

Python GIL (Global Interpreter Lock) ograničava CPU-bound zadatke poput tokenizacije i detokenizacije na single-thread izvođenje, čak i kad ispod radi Rust ili C++ tokenizer biblioteka. U SGLangu i vLLM-u to postaje uže grlo pod realnom produkcijskom prometu — svaka mikrosekunda GIL-bound tokenizacije znači mikrosekundu u kojoj GPU vrijedan stotine tisuća dolara stoji bez posla. Na velikom prefill-decode disaggregated serving-u i expert parallelism-u to se kumulira u značajan gubitak iskoristivosti hardvera.

Kako je SMG arhitektura strukturirana?

SMG identificira svaki CPU-bound workload koji je inače ispreplemen s GPU procesom: tokenizacija, detokenizacija, parsiranje reasoning outputa, ekstrakcija function call-ova, MCP tool orkestracija, multimodal preprocessing, chat history management, structured output validacija, stop sequence detekcija. Sve su te zadatke autori prebacili u Rust gateway koji komunicira s engine-om preko minimalnog gRPC protokola — engine prima predtokenizirane ulazne podatke i streama izlazne tokene, a sve drugo radi gateway. Tokenizacija u Rustu koristi dvorazinski cache: L0 exact-match za ponovljene promptove i L1 prefix-aware na granicama specijalnih tokena.

Što SMG donosi razvojnim timovima?

Jedan SMG proces frontuje cijelu flotu — više modela, više engine-a, jedan ulazni point. Rute zahtjeva može preusmjeriti preko SGLanga, vLLM-a, TensorRT-LLM-a i MLX backenda istovremeno, a kao eksterne providere podržava OpenAI, Anthropic, Google Gemini, AWS Bedrock i Azure OpenAI. Native API-ji uključuju Chat Completions, Responses API, Anthropic Messages API (s ThinkingConfig i interleaved reasoning blokovima), Gemini Interactions API i Realtime API preko WebSocketa/WebRTC-a. Multimodal komponentu autori posebno ističu — prepisali su dijelove HuggingFace transformers image processora iz Pythona u Rust, što opisuju kao industry first.

Zašto je ovo važno za open-source LLM ekosustav?

SMG argumentira da inferencijski engine i gateway trebaju evoluirati neovisno: engine se može unaprijediti novim GPU kernelima i kvantizacijom bez diranja gateway-a, a gateway dobija nove parsere, alate i protokole bez diranja engine-a. Granični interfejs između njih (smg-grpc-proto na PyPI-ju) postaje stabilan ugovor. Production deployments uključuju Google Cloud, Oracle Cloud, Alibaba Cloud i TogetherAI — što sugerira da disaggregacija već nije akademski koncept nego operativni pattern u industriji.

Česta pitanja

Koji je glavni problem koji SMG rješava?
Python GIL (Global Interpreter Lock) ograničava CPU-bound zadatke poput tokenizacije i orkestracije alata na single-thread izvođenje, što usporava skupe GPU klastere. SMG premješta sve te zadatke u Rust gateway izvan Python procesa.
Koliki je stvarni performance dobitak?
Na Llama 3.3 70B FP8 modelu output throughput skoči s 327 na 1,150 tokena/s (3.5× brže). Na long-context scenarijima prosjek je +12.2% prosječni throughput preko različitih konfiguracija.
Tko već koristi SMG u produkciji?
Google Cloud, Oracle Cloud, Alibaba Cloud i TogetherAI navedeni su kao production deployments. Projekt je u šest mjeseci dostigao trinaest releasea.