arXiv:2605.21427: PALS — power-aware LLM serving za MoE modele postiže +26.3% energetske efikasnosti i 4-7× manje QoS povreda
Istraživači su 21. svibnja 2026. na arXiv preprint serveru objavili PALS — runtime sustav koji integrira GPU power kontrolu direktno u LLM serving za Mixture-of-Experts modele. PALS koristi lagane offline power-performance modele i feedback controller koji dinamički optimizira konfiguracije po throughput ciljevima. Postiže 26.3% poboljšanje energetske efikasnosti i 4-7× redukciju QoS povreda pod power ograničenjima, integrira se u vLLM bez izmjene API-ja ili retreininga modela. Adresira sve veću operativnu boljku data centara — energetska potrošnja GPU clustera koja postaje dominantno ograničenje rasta.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Skupina istraživača (vidi puni autorski popis na arXiv) objavila je 21. svibnja 2026. preprint PALS — Power-Aware LLM Serving for Mixture-of-Experts Models (arXiv:2605.21427) koji predstavlja runtime sustav za optimizaciju energetske potrošnje LLM serving infrastrukture. PALS direktno adresira problem koji je u 2025-2026 postao dominantno operativno ograničenje rasta AI infrastrukture — energetska potrošnja GPU data centara.
Što PALS konkretno radi?
PALS je sloj koji se ubacuje između vLLM serving frameworka i GPU hardware-a. Funkcionira u tri koraka:
Offline modeliranje — istraživači gradi lagane offline modele koji povezuju GPU power state (DVFS — Dynamic Voltage and Frequency Scaling) s inference latency i throughput za različite expert konfiguracije. Modeli su mali (KB veličine) i ne zahtijevaju realtime ML inference.
Online feedback controller — u runtime-u, PALS prati trenutni workload (broj concurrent zahtjeva, ulazni token rate, expert utilization patterns) i dinamički prilagođava GPU power state. Cilj je minimizirati energetsku potrošnju za zadane SLA ciljeve (p95 latency, throughput target).
vLLM integracija — sve se događa kroz vLLM scheduler hook-ove. Postojeći vLLM API ostaje nepromijenjen. Modeli se ne moraju retreinirati niti modificirati. To je značajan engineering choice jer omogućuje drop-in deployment u postojeće serving stack-ove.
Koje su konkretne performanse?
PALS pokazuje sljedeće rezultate u eksperimentima:
- +26.3% poboljšanje energetske efikasnosti (mjerne jedinice: tokens generated per joule consumed)
- 4-7× redukcija QoS violation rate-a pod power capping ograničenjima
- Bez degradation throughput-a pri standardnim power budget-ima
Energetska efikasnost je posebno značajna metrika za hyperscale operatore (Meta, Google, Microsoft, AWS, Anthropic, OpenAI) gdje GPU energetski trošak čini značajan dio operativnih troškova LLM inference-a.
Zašto su MoE modeli posebno interesantni?
Mixture-of-Experts arhitektura (Mixtral 8x22B, DeepSeek V3 256-expert sparse, Qwen MoE varijante) ima heterogeni computation profile — različiti experts se aktiviraju za različite ulazne sekvence, što znači da fixed power state nije optimalan.
Klasični LLM serving stack-ovi tretiraju MoE modele kao da su dense — primjenjuju isti power state na cijeli GPU bez obzira koji subset experts se aktivira. PALS koristi tu varijabilnost — kad model trenutno radi računski lakšu putanju, GPU power state se snižava bez utjecaja na latency.
Što ovo znači za AI infrastrukturu?
Energetska efikasnost je 2026. godine kritični faktor scaling-a za sve hyperscale operatore. NVIDIA H100 i B200 GPU clusters konzumiraju značajne MW elektriciteta, a access to power je postao ozbiljno ograničenje gradnji novih data centara (poznato je kao “power gap” problem).
PALS — i sve slične optimizacijske tehnike — postaju strateški važne za ekonomiju serving stack-a. 26.3% poboljšanje znači da se isti throughput može postići s 26.3% manje GPU kapaciteta, ili da se postojeći GPU clusters mogu skalirati 26.3% više bez dodatne električne energije.
Za open source community, integration u vLLM (najpopularniji open-source LLM serving framework) znači da bi PALS mogao postati prvi široko prihvaćeni power-aware serving sloj. Vrijedi pratiti hoće li autori objaviti referencu implementaciju ili pridonijeti direktno vLLM mainline branch-u.
Česta pitanja
- Što PALS konkretno mijenja u vLLM serving stack-u?
- PALS dodaje sloj GPU power kontrole koji dinamički prilagođava power state-ove (DVFS) ovisno o trenutnom workloadu i SLA ciljevima, integriran direktno u vLLM scheduler.
- Koje su konkretne performanse PALS sustava?
- +26.3% energetske efikasnosti i 4-7× manje SLO violations pod power constraints, bez retreininga modela ili izmjene serving API-ja.
- Za koje modele je PALS dizajniran?
- Mixture-of-Experts (MoE) modeli kao što su Mixtral, DeepSeek V3, Qwen MoE varijante — gdje različiti experts imaju različite computation profile.