🔴 📦 Open Source Objavljeno: · 2 min čitanja ·

PyTorch: TokenSpeed-Kernel — prijenosni high-performance kerneli za multi-silicon LLM inference

Editorial illustration: PyTorch logo s apstraktnim slojevima GPU silicija i grafom ubrzanja inferencije na plavoj pozadini

TokenSpeed-Kernel je open-source troslojni kernel podsustav koji ubrzava LLM inference na NVIDIA i AMD GPU-ima do 3,6 puta bez prepisivanja koda, a već je integriran u vLLM inferencing framework.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.

Što je TokenSpeed-Kernel i zašto je bitan?

TokenSpeed-Kernel je troslojni open-source kernel podsustav — skup niskorazinskih GPU programa koji direktno upravljaju računanjem LLM modela — dizajniran da rade jednako dobro na NVIDIA i AMD silikonu bez potrebe za prepisivanjem koda. PyTorch ekipa objavio ga je kao odgovor na dugogodišnji problem: visokoperformantni kerneli bili su vezani uz jednog proizvođača čipa, što je otežavalo portabilnost LLM sustava na alternativni hardver.

Koliko je ubrzanje u praksi?

Mjerenja na GPT-OSS 120B modelu pokrenutom na AMD MI355X GPU-u pokazuju dramatično poboljšanje u svakoj fazi inferencije u usporedbi s Tritonom — dosadašnjim standardnim PyTorch kernel okvirom:

  • Attention prefill (faza obrade ulaznog teksta): 1,4–2,3× brže od Tritona
  • MoE decode — MoE (Mixture of Experts) je arhitektura gdje model aktivira samo dio svojih parametara po tokenu — 1,7–2,1× brže
  • End-to-end throughput (ukupna propusnost sustava): 1,6–3,6× veća

Gornja granica ubrzanja od 3,6 puta nije marginalna optimizacija — znači da isti hardver može opsluživati znatno više korisničkih zahtjeva po satu ili generirati odgovore višestruko brže.

Kako radi troslojni pristup?

TokenSpeed-Kernel dijeli kod u tri sloja: zajednički sučelje neovisno o hardveru, backend specifičan za NVIDIA-u i backend specifičan za AMD. Kada programer poziva operaciju pozornosti ili MoE prolaz, sustav automatski odabire ispravan backend za detektirani GPU bez ikakvog dodatnog koda na strani korisnika.

Plugin mehanizam @register_kernel dodatno omogućava tvrtkama ili istraživačima da dodaju podršku za vlastite, nestandardne arhitekture silicija integracijom u isti sustav.

Integracija i dostupnost

TokenSpeed-Kernel je dostupan kao standardni Python paket (pip install) i već je integriran u vLLM putem pull requesta PR #46742 — vLLM je jedan od najraširenijih open-source LLM serving frameworka kojeg koriste stotine produkcijskih sustava. Korisnici vLLM-a automatski profitiraju od ubrzanja bez promjene vlastite konfiguracije.

Šira slika: kraj monopola jednog čipa?

Dosad su visokoperformantni kerneli bili praktički ekskluzivitet NVIDIA ekosustava, jer su pisani za CUDA platformu koja ne radi na AMD hardveru. TokenSpeed-Kernel mijenja tu dinamiku: inferencing sustavi mogu sada transparentno prebacivati između NVIDIA i AMD GPU-a uz identičan kod, što povećava konkurenciju na tržištu AI akceleratora i smanjuje rizik ovisnosti o jednom dobavljaču za LLM produkcijske infrastrukture.

Česta pitanja

Što je kernel u kontekstu GPU inferencije?
GPU kernel je niska razina programa koji se izvršava na grafičkom procesoru i direktno upravlja računanjem matrica i pozornosti — brzina kernela izravno određuje koliko tokena model generira u sekundi.
Radi li TokenSpeed-Kernel samo s NVIDIA GPU-ima?
Ne — TokenSpeed-Kernel je dizajniran za multi-silicon pristup s odvojenim backendovima za NVIDIA i AMD GPU-e, a plugin sustav (@register_kernel) omogućava dodavanje podrške za nove arhitekture bez promjene zajedničkog koda.