EGG: GPU kerneli 2,13× brže uz AI agente

EGG je višeagentni okvir koji automatski generira optimizirane GPU kernele za LLM inferenciju. Dvostupanjskim pristupom — algoritamska struktura pa hardversko podešavanje — postiže 2,13× prosječni ubrzanje u odnosu na PyTorch baseline i nadmašuje i agentske i RL-bazirane pristupe na KernelBenchu.

Zašto ručno pisanje GPU kernela više nije skalabilno

GPU kernel — niska razina koda koji izravno upravlja paralelnim računanjem na grafičkoj kartici — kritičan je za brzinu i cijenu LLM inferencije. Pisanje visoko-optimiziranih kernela tradicionalno zahtijeva duboko hardversko znanje i tjedne inženjerskog rada. EGG (Expert-Guided agent framework for kernel Generation), rad koji su podnijeli Yaochen Han i suradnici 25. lipnja 2026., nudi automatiziran put: višeagentni sustav koji kombinira ekspertno znanje s LLM generacijom koda.

Kako funkcionira dvostupanjski pristup?

EGG rastavlja problem na dva jasno odvojena koraka. U prvom koraku agenti dizajniraju algoritamsku strukturu — definiraju matematičke operacije i računalni graf. U drugom koraku specijalizirani agenti provode hardversko-specifično podešavanje: paralelno mapiranje niti, tensor tiling (raspoređivanje podataka u matričnim pločicama radi efikasnijeg pristupa memoriji) i optimizaciju memorijskog pristupa za konkretan GPU. Između stupnjeva višeagentni mehanizam prenosi kontekst, čime svaki agent djeluje s punom slikom dosadašnjeg rješenja, a ne u vakuumu.

Rezultati: 2,13× brže od PyTorcha, ispred RL-baziranih sustava

Na KernelBenchu — standardnom skupu zadataka za evaluaciju automatski generiranih GPU kernela — EGG postiže 2,13× prosječni ubrzanje u odnosu na PyTorch baseline. To je mjerljivi skok i iznad agent-baziranih konkurenata koji ne koriste ekspertno vođenje, i iznad pristupa koji koriste pojačano učenje (reinforcement learning) za optimizaciju kernela. RL-bazirani sustavi uče metodom pokušaja i pogreške; EGG umjesto toga ugrađuje ekspertna pravila izravno u agentske upute, čime smanjuje prostor pretrage i ubrzava konvergenciju prema ispravnom i brzom rješenju.

Praktične implikacije za LLM deployment

Brži kerneli izravno se prevode u niže troškove inferencije i kraća vremena odaziva za produkcijske LLM sustave. Ako se EGG pokaže primjenjivim izvan istraživačkih benchmarka, timovi koji deployaju vlastite modele mogli bi automatizirati dio optimizacije koji danas troši najviše inženjerskih sati — bez potrebe za specijalistima za hardversku optimizaciju.

Česta pitanja

Što je GPU kernel i zašto je važan za AI?

GPU kernel je niska razina koda koji izravno upravlja računanjem na grafičkoj kartici — određuje koliko brzo model može obraditi podatke. Sporiji kernel znači skuplja i spora LLM inferencija.

Kako EGG nadmašuje RL-bazirane pristupe?

Dok RL pristup uči metodom pokušaja i pogreške bez domenskog znanja, EGG ugrađuje ekspertna pravila u agentske upute za svaki korak, što znači da svaki agent djeluje u okviru provjerenih heurističkih ograničenja, a ne slijepo istražuje prostor rješenja.

arXiv:2606.26758: EGG — višeagentni okvir generira GPU kernele 2,13× brže od PyTorcha

Zašto ručno pisanje GPU kernela više nije skalabilno

Kako funkcionira dvostupanjski pristup?

Rezultati: 2,13× brže od PyTorcha, ispred RL-baziranih sustava

Praktične implikacije za LLM deployment

Česta pitanja

Izvori

Povezane vijesti