PyTorch SMG: disaggregacija CPU od GPU u LLM serving-u donosi 3.5× output throughput za Llama 3.3 70B FP8, već u produkciji na Google Cloudu, Oracleu i Alibabi
LightSeek Foundation je 30. travnja 2026. na PyTorch blogu predstavila Shepherd Model Gateway (SMG), Rust gateway koji premješta CPU-bound zadatke (tokenizacija, MCP orkestracija, chat history, multimodal preprocessing) iz GPU procesa u zaseban gRPC sloj. Llama 3.3 70B FP8 postiže 1,150 vs 327 output tokena/s (3.5× throughput), a rješenje je već u produkciji na Google Cloudu, Oracle Cloudu, Alibaba Cloudu i TogetherAI.
LightSeek Foundation je 30. travnja 2026. na službenom PyTorch blogu objavila Shepherd Model Gateway (SMG), projekt koji argumentira da je u modernom LLM serving-u CPU postao usko grlo skupom GPU klasteru. SMG premješta sve CPU-bound zadatke iz GPU procesa u zaseban Rust gateway sloj koji s engine-om komunicira preko gRPC-a. Autori — Simo Lin, Chang Su i Keyang Ru — opisuju arhitekturu kao “GPU-i moraju raditi tensor matematiku, sve ostalo pripada u zaseban serving sloj”.
Koji problem disaggregacija stvarno rješava?
Python GIL (Global Interpreter Lock) ograničava CPU-bound zadatke poput tokenizacije i detokenizacije na single-thread izvođenje, čak i kad ispod radi Rust ili C++ tokenizer biblioteka. U SGLangu i vLLM-u to postaje uže grlo pod realnom produkcijskom prometu — svaka mikrosekunda GIL-bound tokenizacije znači mikrosekundu u kojoj GPU vrijedan stotine tisuća dolara stoji bez posla. Na velikom prefill-decode disaggregated serving-u i expert parallelism-u to se kumulira u značajan gubitak iskoristivosti hardvera.
Kako je SMG arhitektura strukturirana?
SMG identificira svaki CPU-bound workload koji je inače ispreplemen s GPU procesom: tokenizacija, detokenizacija, parsiranje reasoning outputa, ekstrakcija function call-ova, MCP tool orkestracija, multimodal preprocessing, chat history management, structured output validacija, stop sequence detekcija. Sve su te zadatke autori prebacili u Rust gateway koji komunicira s engine-om preko minimalnog gRPC protokola — engine prima predtokenizirane ulazne podatke i streama izlazne tokene, a sve drugo radi gateway. Tokenizacija u Rustu koristi dvorazinski cache: L0 exact-match za ponovljene promptove i L1 prefix-aware na granicama specijalnih tokena.
Što SMG donosi razvojnim timovima?
Jedan SMG proces frontuje cijelu flotu — više modela, više engine-a, jedan ulazni point. Rute zahtjeva može preusmjeriti preko SGLanga, vLLM-a, TensorRT-LLM-a i MLX backenda istovremeno, a kao eksterne providere podržava OpenAI, Anthropic, Google Gemini, AWS Bedrock i Azure OpenAI. Native API-ji uključuju Chat Completions, Responses API, Anthropic Messages API (s ThinkingConfig i interleaved reasoning blokovima), Gemini Interactions API i Realtime API preko WebSocketa/WebRTC-a. Multimodal komponentu autori posebno ističu — prepisali su dijelove HuggingFace transformers image processora iz Pythona u Rust, što opisuju kao industry first.
Zašto je ovo važno za open-source LLM ekosustav?
SMG argumentira da inferencijski engine i gateway trebaju evoluirati neovisno: engine se može unaprijediti novim GPU kernelima i kvantizacijom bez diranja gateway-a, a gateway dobija nove parsere, alate i protokole bez diranja engine-a. Granični interfejs između njih (smg-grpc-proto na PyPI-ju) postaje stabilan ugovor. Production deployments uključuju Google Cloud, Oracle Cloud, Alibaba Cloud i TogetherAI — što sugerira da disaggregacija već nije akademski koncept nego operativni pattern u industriji.
Česta pitanja
- Koji je glavni problem koji SMG rješava?
- Python GIL (Global Interpreter Lock) ograničava CPU-bound zadatke poput tokenizacije i orkestracije alata na single-thread izvođenje, što usporava skupe GPU klastere. SMG premješta sve te zadatke u Rust gateway izvan Python procesa.
- Koliki je stvarni performance dobitak?
- Na Llama 3.3 70B FP8 modelu output throughput skoči s 327 na 1,150 tokena/s (3.5× brže). Na long-context scenarijima prosjek je +12.2% prosječni throughput preko različitih konfiguracija.
- Tko već koristi SMG u produkciji?
- Google Cloud, Oracle Cloud, Alibaba Cloud i TogetherAI navedeni su kao production deployments. Projekt je u šest mjeseci dostigao trinaest releasea.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Povezane vijesti
Anthropic zatvara 1M context beta za Sonnet 4.5 i Sonnet 4 — migracija na 4.6 obavezna
AstaBench proljeće 2026.: Claude Opus 4.7 vodi s 58% u znanstvenom AI benchmarku, GPT-5.5 jeftiniji upola
BioMysteryBench: Claude Mythos Preview rješava bioinformatičke probleme koje ni stručnjaci ne mogu, Opus 4.6 postiže 77.4 % na human-solvable zadacima