arXiv:2605.21427: PALS — energiebewusstes LLM-Serving für MoE-Modelle erreicht +26,3 % Energieeffizienz und 4-7× weniger QoS-Verstöße
Forscher veröffentlichten am 21. Mai 2026 PALS auf dem arXiv-Preprint-Server — ein Laufzeitsystem, das GPU-Leistungssteuerung direkt in das LLM-Serving für Mixture-of-Experts-Modelle integriert. PALS nutzt leichtgewichtige Offline-Power-Performance-Modelle und einen Feedback-Controller, der Konfigurationen dynamisch auf Durchsatzziele optimiert. Erreicht werden 26,3 % bessere Energieeffizienz und 4-7× weniger QoS-Verstöße unter Leistungsbeschränkungen — Integration in vLLM ohne API-Änderungen oder Modell-Retraining. PALS adressiert den wachsenden operativen Engpass von Rechenzentren: GPU-Cluster-Energieverbrauch als dominante Wachstumsschranke.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Eine Forschergruppe (vollständige Autorenliste auf arXiv) veröffentlichte am 21. Mai 2026 das Preprint PALS — Power-Aware LLM Serving for Mixture-of-Experts Models (arXiv:2605.21427), das ein Laufzeitsystem zur Optimierung des Energieverbrauchs in LLM-Serving-Infrastruktur vorstellt. PALS adressiert direkt ein Problem, das in 2025-2026 zur dominanten operativen Wachstumsschranke der KI-Infrastruktur geworden ist — Energieverbrauch von GPU-Rechenzentren.
Was macht PALS konkret?
PALS ist eine Schicht, die zwischen dem vLLM-Serving-Framework und der GPU-Hardware eingefügt wird. Das System arbeitet in drei Schritten:
Offline-Modellierung — Forscher erstellen leichtgewichtige Offline-Modelle, die GPU-Power-State (DVFS — Dynamic Voltage and Frequency Scaling) mit Inferenz-Latenz und Durchsatz für verschiedene Experten-Konfigurationen verknüpfen. Die Modelle sind klein (KB-Größe) und erfordern keine Echtzeit-ML-Inferenz.
Online-Feedback-Controller — zur Laufzeit überwacht PALS den aktuellen Workload (Anzahl paralleler Anfragen, Eingabe-Token-Rate, Experten-Auslastungsmuster) und passt den GPU-Power-State dynamisch an. Ziel ist die Minimierung des Energieverbrauchs bei vorgegebenen SLA-Zielen (p95-Latenz, Durchsatzziel).
vLLM-Integration — alles geschieht über vLLM-Scheduler-Hooks. Die bestehende vLLM-API bleibt unverändert. Modelle müssen weder neu trainiert noch modifiziert werden. Diese Engineering-Entscheidung ermöglicht Drop-in-Deployments in bestehende Serving-Stacks.
Welche konkreten Leistungsergebnisse werden erzielt?
PALS zeigt folgende Ergebnisse in den Experimenten:
- +26,3 % Verbesserung der Energieeffizienz (Einheit: erzeugte Token pro verbrauchtem Joule)
- 4-7× Reduktion der QoS-Verletzungsrate unter Power-Capping-Beschränkungen
- Kein Durchsatzverlust bei Standard-Power-Budgets
Energieeffizienz ist eine besonders bedeutsame Kennzahl für Hyperscale-Betreiber (Meta, Google, Microsoft, AWS, Anthropic, OpenAI), bei denen GPU-Energiekosten einen erheblichen Anteil der operativen LLM-Inferenzkosten ausmachen.
Warum sind MoE-Modelle besonders interessant?
Die Mixture-of-Experts-Architektur (Mixtral 8x22B, DeepSeek V3 mit 256 spärlichen Experten, Qwen-MoE-Varianten) besitzt ein heterogenes Berechnungsprofil — verschiedene Experten werden für verschiedene Eingabesequenzen aktiviert, weshalb ein fixer Power-State nicht optimal ist.
Klassische LLM-Serving-Stacks behandeln MoE-Modelle wie Dense-Modelle — sie wenden denselben Power-State auf die gesamte GPU an, unabhängig davon, welche Expertengruppe gerade aktiviert ist. PALS nutzt diese Variabilität aus: Wenn das Modell einen rechnerisch leichteren Pfad durchläuft, wird der GPU-Power-State ohne Latenzauswirkungen abgesenkt.
Was bedeutet dies für die KI-Infrastruktur?
Energieeffizienz ist 2026 ein kritischer Skalierungsfaktor für alle Hyperscale-Betreiber. NVIDIA H100- und B200-GPU-Cluster verbrauchen erhebliche Megawattstunden, und der Zugang zu Strom ist zu einer ernsthaften Einschränkung beim Bau neuer Rechenzentren geworden (bekannt als „Power-Gap”-Problem).
PALS — und ähnliche Optimierungstechniken — werden strategisch wichtig für die Ökonomie des Serving-Stacks. Eine Verbesserung um 26,3 % bedeutet, dass derselbe Durchsatz mit 26,3 % weniger GPU-Kapazität erzielt werden kann, oder dass bestehende GPU-Cluster ohne zusätzliche Elektrizität um 26,3 % weiter skaliert werden können.
Für die Open-Source-Community bedeutet die Integration in vLLM (das beliebteste Open-Source-LLM-Serving-Framework), dass PALS zur ersten weit verbreiteten energiebewussten Serving-Schicht werden könnte. Es bleibt abzuwarten, ob die Autoren eine Referenzimplementierung veröffentlichen oder direkt zum vLLM-Mainline-Branch beitragen werden.
Häufig gestellte Fragen
- Was ändert PALS konkret im vLLM-Serving-Stack?
- PALS fügt eine GPU-Leistungssteuerungsschicht hinzu, die Power-States (DVFS) je nach aktuellem Workload und SLA-Zielen dynamisch anpasst — direkt in den vLLM-Scheduler integriert.
- Welche konkreten Leistungswerte erreicht das PALS-System?
- +26,3 % Energieeffizienz und 4-7× weniger SLO-Verstöße unter Power-Constraints, ohne Modell-Retraining oder Änderungen an der Serving-API.
- Für welche Modelle ist PALS konzipiert?
- Mixture-of-Experts (MoE)-Modelle wie Mixtral, DeepSeek V3 und Qwen-MoE-Varianten — bei denen verschiedene Experten unterschiedliche Berechnungsprofile aufweisen.