🟡 🏥 U praksi Objavljeno: · 3 min čitanja ·

arXiv:2605.21427: PALS — power-aware LLM serving za MoE modele postiže +26.3% energetske efikasnosti i 4-7× manje QoS povreda

arXiv:2605.21427 ↗

Editorial illustration: 2605.21427: PALS — power-aware LLM serving za MoE modele postiže +26.3% energetske efikasnosti i 4-7× manje QoS pov

Istraživači su 21. svibnja 2026. na arXiv preprint serveru objavili PALS — runtime sustav koji integrira GPU power kontrolu direktno u LLM serving za Mixture-of-Experts modele. PALS koristi lagane offline power-performance modele i feedback controller koji dinamički optimizira konfiguracije po throughput ciljevima. Postiže 26.3% poboljšanje energetske efikasnosti i 4-7× redukciju QoS povreda pod power ograničenjima, integrira se u vLLM bez izmjene API-ja ili retreininga modela. Adresira sve veću operativnu boljku data centara — energetska potrošnja GPU clustera koja postaje dominantno ograničenje rasta.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.

Skupina istraživača (vidi puni autorski popis na arXiv) objavila je 21. svibnja 2026. preprint PALS — Power-Aware LLM Serving for Mixture-of-Experts Models (arXiv:2605.21427) koji predstavlja runtime sustav za optimizaciju energetske potrošnje LLM serving infrastrukture. PALS direktno adresira problem koji je u 2025-2026 postao dominantno operativno ograničenje rasta AI infrastrukture — energetska potrošnja GPU data centara.

Što PALS konkretno radi?

PALS je sloj koji se ubacuje između vLLM serving frameworka i GPU hardware-a. Funkcionira u tri koraka:

Offline modeliranje — istraživači gradi lagane offline modele koji povezuju GPU power state (DVFS — Dynamic Voltage and Frequency Scaling) s inference latency i throughput za različite expert konfiguracije. Modeli su mali (KB veličine) i ne zahtijevaju realtime ML inference.

Online feedback controller — u runtime-u, PALS prati trenutni workload (broj concurrent zahtjeva, ulazni token rate, expert utilization patterns) i dinamički prilagođava GPU power state. Cilj je minimizirati energetsku potrošnju za zadane SLA ciljeve (p95 latency, throughput target).

vLLM integracija — sve se događa kroz vLLM scheduler hook-ove. Postojeći vLLM API ostaje nepromijenjen. Modeli se ne moraju retreinirati niti modificirati. To je značajan engineering choice jer omogućuje drop-in deployment u postojeće serving stack-ove.

Koje su konkretne performanse?

PALS pokazuje sljedeće rezultate u eksperimentima:

  • +26.3% poboljšanje energetske efikasnosti (mjerne jedinice: tokens generated per joule consumed)
  • 4-7× redukcija QoS violation rate-a pod power capping ograničenjima
  • Bez degradation throughput-a pri standardnim power budget-ima

Energetska efikasnost je posebno značajna metrika za hyperscale operatore (Meta, Google, Microsoft, AWS, Anthropic, OpenAI) gdje GPU energetski trošak čini značajan dio operativnih troškova LLM inference-a.

Zašto su MoE modeli posebno interesantni?

Mixture-of-Experts arhitektura (Mixtral 8x22B, DeepSeek V3 256-expert sparse, Qwen MoE varijante) ima heterogeni computation profile — različiti experts se aktiviraju za različite ulazne sekvence, što znači da fixed power state nije optimalan.

Klasični LLM serving stack-ovi tretiraju MoE modele kao da su dense — primjenjuju isti power state na cijeli GPU bez obzira koji subset experts se aktivira. PALS koristi tu varijabilnost — kad model trenutno radi računski lakšu putanju, GPU power state se snižava bez utjecaja na latency.

Što ovo znači za AI infrastrukturu?

Energetska efikasnost je 2026. godine kritični faktor scaling-a za sve hyperscale operatore. NVIDIA H100 i B200 GPU clusters konzumiraju značajne MW elektriciteta, a access to power je postao ozbiljno ograničenje gradnji novih data centara (poznato je kao “power gap” problem).

PALS — i sve slične optimizacijske tehnike — postaju strateški važne za ekonomiju serving stack-a. 26.3% poboljšanje znači da se isti throughput može postići s 26.3% manje GPU kapaciteta, ili da se postojeći GPU clusters mogu skalirati 26.3% više bez dodatne električne energije.

Za open source community, integration u vLLM (najpopularniji open-source LLM serving framework) znači da bi PALS mogao postati prvi široko prihvaćeni power-aware serving sloj. Vrijedi pratiti hoće li autori objaviti referencu implementaciju ili pridonijeti direktno vLLM mainline branch-u.

Česta pitanja

Što PALS konkretno mijenja u vLLM serving stack-u?
PALS dodaje sloj GPU power kontrole koji dinamički prilagođava power state-ove (DVFS) ovisno o trenutnom workloadu i SLA ciljevima, integriran direktno u vLLM scheduler.
Koje su konkretne performanse PALS sustava?
+26.3% energetske efikasnosti i 4-7× manje SLO violations pod power constraints, bez retreininga modela ili izmjene serving API-ja.
Za koje modele je PALS dizajniran?
Mixture-of-Experts (MoE) modeli kao što su Mixtral, DeepSeek V3, Qwen MoE varijante — gdje različiti experts imaju različite computation profile.