PyTorch: TokenSpeed-Kernel — prijenosni high-performance kerneli za multi-silicon LLM inference
TokenSpeed-Kernel je open-source troslojni kernel podsustav koji ubrzava LLM inference na NVIDIA i AMD GPU-ima do 3,6 puta bez prepisivanja koda, a već je integriran u vLLM inferencing framework.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Što je TokenSpeed-Kernel i zašto je bitan?
TokenSpeed-Kernel je troslojni open-source kernel podsustav — skup niskorazinskih GPU programa koji direktno upravljaju računanjem LLM modela — dizajniran da rade jednako dobro na NVIDIA i AMD silikonu bez potrebe za prepisivanjem koda. PyTorch ekipa objavio ga je kao odgovor na dugogodišnji problem: visokoperformantni kerneli bili su vezani uz jednog proizvođača čipa, što je otežavalo portabilnost LLM sustava na alternativni hardver.
Koliko je ubrzanje u praksi?
Mjerenja na GPT-OSS 120B modelu pokrenutom na AMD MI355X GPU-u pokazuju dramatično poboljšanje u svakoj fazi inferencije u usporedbi s Tritonom — dosadašnjim standardnim PyTorch kernel okvirom:
- Attention prefill (faza obrade ulaznog teksta): 1,4–2,3× brže od Tritona
- MoE decode — MoE (Mixture of Experts) je arhitektura gdje model aktivira samo dio svojih parametara po tokenu — 1,7–2,1× brže
- End-to-end throughput (ukupna propusnost sustava): 1,6–3,6× veća
Gornja granica ubrzanja od 3,6 puta nije marginalna optimizacija — znači da isti hardver može opsluživati znatno više korisničkih zahtjeva po satu ili generirati odgovore višestruko brže.
Kako radi troslojni pristup?
TokenSpeed-Kernel dijeli kod u tri sloja: zajednički sučelje neovisno o hardveru, backend specifičan za NVIDIA-u i backend specifičan za AMD. Kada programer poziva operaciju pozornosti ili MoE prolaz, sustav automatski odabire ispravan backend za detektirani GPU bez ikakvog dodatnog koda na strani korisnika.
Plugin mehanizam @register_kernel dodatno omogućava tvrtkama ili istraživačima da dodaju podršku za vlastite, nestandardne arhitekture silicija integracijom u isti sustav.
Integracija i dostupnost
TokenSpeed-Kernel je dostupan kao standardni Python paket (pip install) i već je integriran u vLLM putem pull requesta PR #46742 — vLLM je jedan od najraširenijih open-source LLM serving frameworka kojeg koriste stotine produkcijskih sustava. Korisnici vLLM-a automatski profitiraju od ubrzanja bez promjene vlastite konfiguracije.
Šira slika: kraj monopola jednog čipa?
Dosad su visokoperformantni kerneli bili praktički ekskluzivitet NVIDIA ekosustava, jer su pisani za CUDA platformu koja ne radi na AMD hardveru. TokenSpeed-Kernel mijenja tu dinamiku: inferencing sustavi mogu sada transparentno prebacivati između NVIDIA i AMD GPU-a uz identičan kod, što povećava konkurenciju na tržištu AI akceleratora i smanjuje rizik ovisnosti o jednom dobavljaču za LLM produkcijske infrastrukture.
Česta pitanja
- Što je kernel u kontekstu GPU inferencije?
- GPU kernel je niska razina programa koji se izvršava na grafičkom procesoru i direktno upravlja računanjem matrica i pozornosti — brzina kernela izravno određuje koliko tokena model generira u sekundi.
- Radi li TokenSpeed-Kernel samo s NVIDIA GPU-ima?
- Ne — TokenSpeed-Kernel je dizajniran za multi-silicon pristup s odvojenim backendovima za NVIDIA i AMD GPU-e, a plugin sustav (@register_kernel) omogućava dodavanje podrške za nove arhitekture bez promjene zajedničkog koda.