arXiv:2606.26758: EGG — višeagentni okvir generira GPU kernele 2,13× brže od PyTorcha
EGG je višeagentni okvir koji automatski generira optimizirane GPU kernele za LLM inferenciju. Dvostupanjskim pristupom — algoritamska struktura pa hardversko podešavanje — postiže 2,13× prosječni ubrzanje u odnosu na PyTorch baseline i nadmašuje i agentske i RL-bazirane pristupe na KernelBenchu.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Zašto ručno pisanje GPU kernela više nije skalabilno
GPU kernel — niska razina koda koji izravno upravlja paralelnim računanjem na grafičkoj kartici — kritičan je za brzinu i cijenu LLM inferencije. Pisanje visoko-optimiziranih kernela tradicionalno zahtijeva duboko hardversko znanje i tjedne inženjerskog rada. EGG (Expert-Guided agent framework for kernel Generation), rad koji su podnijeli Yaochen Han i suradnici 25. lipnja 2026., nudi automatiziran put: višeagentni sustav koji kombinira ekspertno znanje s LLM generacijom koda.
Kako funkcionira dvostupanjski pristup?
EGG rastavlja problem na dva jasno odvojena koraka. U prvom koraku agenti dizajniraju algoritamsku strukturu — definiraju matematičke operacije i računalni graf. U drugom koraku specijalizirani agenti provode hardversko-specifično podešavanje: paralelno mapiranje niti, tensor tiling (raspoređivanje podataka u matričnim pločicama radi efikasnijeg pristupa memoriji) i optimizaciju memorijskog pristupa za konkretan GPU. Između stupnjeva višeagentni mehanizam prenosi kontekst, čime svaki agent djeluje s punom slikom dosadašnjeg rješenja, a ne u vakuumu.
Rezultati: 2,13× brže od PyTorcha, ispred RL-baziranih sustava
Na KernelBenchu — standardnom skupu zadataka za evaluaciju automatski generiranih GPU kernela — EGG postiže 2,13× prosječni ubrzanje u odnosu na PyTorch baseline. To je mjerljivi skok i iznad agent-baziranih konkurenata koji ne koriste ekspertno vođenje, i iznad pristupa koji koriste pojačano učenje (reinforcement learning) za optimizaciju kernela. RL-bazirani sustavi uče metodom pokušaja i pogreške; EGG umjesto toga ugrađuje ekspertna pravila izravno u agentske upute, čime smanjuje prostor pretrage i ubrzava konvergenciju prema ispravnom i brzom rješenju.
Praktične implikacije za LLM deployment
Brži kerneli izravno se prevode u niže troškove inferencije i kraća vremena odaziva za produkcijske LLM sustave. Ako se EGG pokaže primjenjivim izvan istraživačkih benchmarka, timovi koji deployaju vlastite modele mogli bi automatizirati dio optimizacije koji danas troši najviše inženjerskih sati — bez potrebe za specijalistima za hardversku optimizaciju.
Česta pitanja
- Što je GPU kernel i zašto je važan za AI?
- GPU kernel je niska razina koda koji izravno upravlja računanjem na grafičkoj kartici — određuje koliko brzo model može obraditi podatke. Sporiji kernel znači skuplja i spora LLM inferencija.
- Kako EGG nadmašuje RL-bazirane pristupe?
- Dok RL pristup uči metodom pokušaja i pogreške bez domenskog znanja, EGG ugrađuje ekspertna pravila u agentske upute za svaki korak, što znači da svaki agent djeluje u okviru provjerenih heurističkih ograničenja, a ne slijepo istražuje prostor rješenja.
Izvori
Povezane vijesti
arXiv:2606.26649: Upute agentima pretvorene u formalno verificirani policy-as-code
AWS: Stripe pokrenuo 100+ AI agenata za financijsku usklađenost — lekcije iz produkcije
Anthropic: Claude Code v2.1.195 — onemogućavanje miša, poboljšan voice dictation i popravci hookova