PyTorch SMG: CPU/GPU disaggregacija, 3.5× throughput Llama 3.3

LightSeek Foundation je 30. travnja 2026. na PyTorch blogu predstavila Shepherd Model Gateway (SMG), Rust gateway koji premješta CPU-bound zadatke (tokenizacija, MCP orkestracija, chat history, multimodal preprocessing) iz GPU procesa u zaseban gRPC sloj. Llama 3.3 70B FP8 postiže 1,150 vs 327 output tokena/s (3.5× throughput), a rješenje je već u produkciji na Google Cloudu, Oracle Cloudu, Alibaba Cloudu i TogetherAI.

LightSeek Foundation je 30. travnja 2026. na službenom PyTorch blogu objavila Shepherd Model Gateway (SMG), projekt koji argumentira da je u modernom LLM serving-u CPU postao usko grlo skupom GPU klasteru. SMG premješta sve CPU-bound zadatke iz GPU procesa u zaseban Rust gateway sloj koji s engine-om komunicira preko gRPC-a. Autori — Simo Lin, Chang Su i Keyang Ru — opisuju arhitekturu kao “GPU-i moraju raditi tensor matematiku, sve ostalo pripada u zaseban serving sloj”.

Koji problem disaggregacija stvarno rješava?

Python GIL (Global Interpreter Lock) ograničava CPU-bound zadatke poput tokenizacije i detokenizacije na single-thread izvođenje, čak i kad ispod radi Rust ili C++ tokenizer biblioteka. U SGLangu i vLLM-u to postaje uže grlo pod realnom produkcijskom prometu — svaka mikrosekunda GIL-bound tokenizacije znači mikrosekundu u kojoj GPU vrijedan stotine tisuća dolara stoji bez posla. Na velikom prefill-decode disaggregated serving-u i expert parallelism-u to se kumulira u značajan gubitak iskoristivosti hardvera.

Kako je SMG arhitektura strukturirana?

SMG identificira svaki CPU-bound workload koji je inače ispreplemen s GPU procesom: tokenizacija, detokenizacija, parsiranje reasoning outputa, ekstrakcija function call-ova, MCP tool orkestracija, multimodal preprocessing, chat history management, structured output validacija, stop sequence detekcija. Sve su te zadatke autori prebacili u Rust gateway koji komunicira s engine-om preko minimalnog gRPC protokola — engine prima predtokenizirane ulazne podatke i streama izlazne tokene, a sve drugo radi gateway. Tokenizacija u Rustu koristi dvorazinski cache: L0 exact-match za ponovljene promptove i L1 prefix-aware na granicama specijalnih tokena.

Što SMG donosi razvojnim timovima?

Jedan SMG proces frontuje cijelu flotu — više modela, više engine-a, jedan ulazni point. Rute zahtjeva može preusmjeriti preko SGLanga, vLLM-a, TensorRT-LLM-a i MLX backenda istovremeno, a kao eksterne providere podržava OpenAI, Anthropic, Google Gemini, AWS Bedrock i Azure OpenAI. Native API-ji uključuju Chat Completions, Responses API, Anthropic Messages API (s ThinkingConfig i interleaved reasoning blokovima), Gemini Interactions API i Realtime API preko WebSocketa/WebRTC-a. Multimodal komponentu autori posebno ističu — prepisali su dijelove HuggingFace transformers image processora iz Pythona u Rust, što opisuju kao industry first.

Zašto je ovo važno za open-source LLM ekosustav?

SMG argumentira da inferencijski engine i gateway trebaju evoluirati neovisno: engine se može unaprijediti novim GPU kernelima i kvantizacijom bez diranja gateway-a, a gateway dobija nove parsere, alate i protokole bez diranja engine-a. Granični interfejs između njih (smg-grpc-proto na PyPI-ju) postaje stabilan ugovor. Production deployments uključuju Google Cloud, Oracle Cloud, Alibaba Cloud i TogetherAI — što sugerira da disaggregacija već nije akademski koncept nego operativni pattern u industriji.

Česta pitanja

Koji je glavni problem koji SMG rješava?

Python GIL (Global Interpreter Lock) ograničava CPU-bound zadatke poput tokenizacije i orkestracije alata na single-thread izvođenje, što usporava skupe GPU klastere. SMG premješta sve te zadatke u Rust gateway izvan Python procesa.

Koliki je stvarni performance dobitak?

Na Llama 3.3 70B FP8 modelu output throughput skoči s 327 na 1,150 tokena/s (3.5× brže). Na long-context scenarijima prosjek je +12.2% prosječni throughput preko različitih konfiguracija.

Tko već koristi SMG u produkciji?

Google Cloud, Oracle Cloud, Alibaba Cloud i TogetherAI navedeni su kao production deployments. Projekt je u šest mjeseci dostigao trinaest releasea.

PyTorch SMG: disaggregacija CPU od GPU u LLM serving-u donosi 3.5× output throughput za Llama 3.3 70B FP8, već u produkciji na Google Cloudu, Oracleu i Alibabi

Koji problem disaggregacija stvarno rješava?

Kako je SMG arhitektura strukturirana?

Što SMG donosi razvojnim timovima?

Zašto je ovo važno za open-source LLM ekosustav?

Česta pitanja

Izvori

Povezane vijesti