PALS: +26,3 % Energieeffizienz bei MoE-LLM-Serving

Forscher veröffentlichten am 21. Mai 2026 PALS auf dem arXiv-Preprint-Server — ein Laufzeitsystem, das GPU-Leistungssteuerung direkt in das LLM-Serving für Mixture-of-Experts-Modelle integriert. PALS nutzt leichtgewichtige Offline-Power-Performance-Modelle und einen Feedback-Controller, der Konfigurationen dynamisch auf Durchsatzziele optimiert. Erreicht werden 26,3 % bessere Energieeffizienz und 4-7× weniger QoS-Verstöße unter Leistungsbeschränkungen — Integration in vLLM ohne API-Änderungen oder Modell-Retraining. PALS adressiert den wachsenden operativen Engpass von Rechenzentren: GPU-Cluster-Energieverbrauch als dominante Wachstumsschranke.

Eine Forschergruppe (vollständige Autorenliste auf arXiv) veröffentlichte am 21. Mai 2026 das Preprint PALS — Power-Aware LLM Serving for Mixture-of-Experts Models (arXiv:2605.21427), das ein Laufzeitsystem zur Optimierung des Energieverbrauchs in LLM-Serving-Infrastruktur vorstellt. PALS adressiert direkt ein Problem, das in 2025-2026 zur dominanten operativen Wachstumsschranke der KI-Infrastruktur geworden ist — Energieverbrauch von GPU-Rechenzentren.

Was macht PALS konkret?

PALS ist eine Schicht, die zwischen dem vLLM-Serving-Framework und der GPU-Hardware eingefügt wird. Das System arbeitet in drei Schritten:

Offline-Modellierung — Forscher erstellen leichtgewichtige Offline-Modelle, die GPU-Power-State (DVFS — Dynamic Voltage and Frequency Scaling) mit Inferenz-Latenz und Durchsatz für verschiedene Experten-Konfigurationen verknüpfen. Die Modelle sind klein (KB-Größe) und erfordern keine Echtzeit-ML-Inferenz.

Online-Feedback-Controller — zur Laufzeit überwacht PALS den aktuellen Workload (Anzahl paralleler Anfragen, Eingabe-Token-Rate, Experten-Auslastungsmuster) und passt den GPU-Power-State dynamisch an. Ziel ist die Minimierung des Energieverbrauchs bei vorgegebenen SLA-Zielen (p95-Latenz, Durchsatzziel).

vLLM-Integration — alles geschieht über vLLM-Scheduler-Hooks. Die bestehende vLLM-API bleibt unverändert. Modelle müssen weder neu trainiert noch modifiziert werden. Diese Engineering-Entscheidung ermöglicht Drop-in-Deployments in bestehende Serving-Stacks.

Welche konkreten Leistungsergebnisse werden erzielt?

PALS zeigt folgende Ergebnisse in den Experimenten:

+26,3 % Verbesserung der Energieeffizienz (Einheit: erzeugte Token pro verbrauchtem Joule)
4-7× Reduktion der QoS-Verletzungsrate unter Power-Capping-Beschränkungen
Kein Durchsatzverlust bei Standard-Power-Budgets

Energieeffizienz ist eine besonders bedeutsame Kennzahl für Hyperscale-Betreiber (Meta, Google, Microsoft, AWS, Anthropic, OpenAI), bei denen GPU-Energiekosten einen erheblichen Anteil der operativen LLM-Inferenzkosten ausmachen.

Warum sind MoE-Modelle besonders interessant?

Die Mixture-of-Experts-Architektur (Mixtral 8x22B, DeepSeek V3 mit 256 spärlichen Experten, Qwen-MoE-Varianten) besitzt ein heterogenes Berechnungsprofil — verschiedene Experten werden für verschiedene Eingabesequenzen aktiviert, weshalb ein fixer Power-State nicht optimal ist.

Klassische LLM-Serving-Stacks behandeln MoE-Modelle wie Dense-Modelle — sie wenden denselben Power-State auf die gesamte GPU an, unabhängig davon, welche Expertengruppe gerade aktiviert ist. PALS nutzt diese Variabilität aus: Wenn das Modell einen rechnerisch leichteren Pfad durchläuft, wird der GPU-Power-State ohne Latenzauswirkungen abgesenkt.

Was bedeutet dies für die KI-Infrastruktur?

Energieeffizienz ist 2026 ein kritischer Skalierungsfaktor für alle Hyperscale-Betreiber. NVIDIA H100- und B200-GPU-Cluster verbrauchen erhebliche Megawattstunden, und der Zugang zu Strom ist zu einer ernsthaften Einschränkung beim Bau neuer Rechenzentren geworden (bekannt als „Power-Gap”-Problem).

PALS — und ähnliche Optimierungstechniken — werden strategisch wichtig für die Ökonomie des Serving-Stacks. Eine Verbesserung um 26,3 % bedeutet, dass derselbe Durchsatz mit 26,3 % weniger GPU-Kapazität erzielt werden kann, oder dass bestehende GPU-Cluster ohne zusätzliche Elektrizität um 26,3 % weiter skaliert werden können.

Für die Open-Source-Community bedeutet die Integration in vLLM (das beliebteste Open-Source-LLM-Serving-Framework), dass PALS zur ersten weit verbreiteten energiebewussten Serving-Schicht werden könnte. Es bleibt abzuwarten, ob die Autoren eine Referenzimplementierung veröffentlichen oder direkt zum vLLM-Mainline-Branch beitragen werden.

Häufig gestellte Fragen

Was ändert PALS konkret im vLLM-Serving-Stack?

PALS fügt eine GPU-Leistungssteuerungsschicht hinzu, die Power-States (DVFS) je nach aktuellem Workload und SLA-Zielen dynamisch anpasst — direkt in den vLLM-Scheduler integriert.

Welche konkreten Leistungswerte erreicht das PALS-System?

+26,3 % Energieeffizienz und 4-7× weniger SLO-Verstöße unter Power-Constraints, ohne Modell-Retraining oder Änderungen an der Serving-API.

Für welche Modelle ist PALS konzipiert?

Mixture-of-Experts (MoE)-Modelle wie Mixtral, DeepSeek V3 und Qwen-MoE-Varianten — bei denen verschiedene Experten unterschiedliche Berechnungsprofile aufweisen.

arXiv:2605.21427: PALS — energiebewusstes LLM-Serving für MoE-Modelle erreicht +26,3 % Energieeffizienz und 4-7× weniger QoS-Verstöße

Was macht PALS konkret?

Welche konkreten Leistungsergebnisse werden erzielt?

Warum sind MoE-Modelle besonders interessant?

Was bedeutet dies für die KI-Infrastruktur?

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten