PALS：MoE LLM服务能效提升+26.3%

研究人员于2026年5月21日在arXiv预印本服务器上发布了PALS — 一个将GPU功耗控制直接集成到MoE模型LLM服务中的运行时系统。PALS利用轻量级离线功耗性能模型和反馈控制器，根据吞吐量目标动态优化配置。在功耗限制下实现了26.3%的能效提升和4-7倍QoS违规减少，无需修改API或重新训练模型即可集成到vLLM。该方案直接解决了数据中心日益突出的运营瓶颈 — GPU集群能耗已成为规模增长的主要限制。

一组研究人员于2026年5月21日发布了预印本论文 PALS — Power-Aware LLM Serving for Mixture-of-Experts Models（arXiv:2605.21427），提出了一个用于优化LLM服务基础设施能耗的运行时系统。PALS直接解决了2025-2026年成为AI基础设施增长主要运营瓶颈的问题 — GPU数据中心的能耗。

PALS具体做了什么？

PALS是插入在vLLM服务框架和GPU硬件之间的一个层，分三步运行：

离线建模 — 研究人员构建轻量级离线模型，将GPU功耗状态（DVFS — 动态电压和频率调节）与不同专家配置下的推理延迟和吞吐量相关联。这些模型体积小（KB级别），不需要实时机器学习推理。

在线反馈控制器 — 在运行时，PALS监控当前工作负载（并发请求数、输入token速率、专家利用率模式）并动态调整GPU功耗状态，目标是在给定SLA约束（p95延迟、吞吐量目标）下最小化能耗。

vLLM集成 — 所有操作通过vLLM调度器钩子完成，现有vLLM API保持不变，模型无需重新训练或修改。这是一个重要的工程选择，允许将PALS直接部署到现有服务栈中。

具体性能如何？

PALS在实验中展示了以下结果：

+26.3%能效提升（度量单位：每焦耳生成的token数）
4-7倍QoS违规率降低（在功耗上限约束下）
标准功耗预算下吞吐量不降级

能效对于超大规模运营商（Meta、Google、Microsoft、AWS、Anthropic、OpenAI）尤为重要，因为GPU能耗在LLM推理的运营成本中占据相当大的比例。

为什么MoE模型特别值得关注？

混合专家架构（Mixtral 8x22B、DeepSeek V3 256专家稀疏架构、Qwen MoE变体）具有异构计算特性 — 不同专家针对不同输入序列被激活，这意味着固定功耗状态并非最优。

传统LLM服务栈将MoE模型视同稠密模型处理 — 无论激活哪些专家子集，都对整个GPU施加相同的功耗状态。PALS利用这种可变性 — 当模型当前运行计算量较小的路径时，在不影响延迟的前提下降低GPU功耗状态。

这对AI基础设施意味着什么？

在2026年，能效是所有超大规模运营商规模扩展的关键因素。NVIDIA H100和B200 GPU集群消耗大量兆瓦电力，而电力获取已成为新建数据中心的严重限制（即所谓的”功率缺口”问题）。

PALS及类似优化技术对服务栈经济具有战略意义。26.3%的提升意味着同等吞吐量可以少用26.3%的GPU容量，或者现有GPU集群可以在不增加电力的情况下扩展26.3%。

对于开源社区，集成到vLLM（最流行的开源LLM服务框架）意味着PALS可能成为首个被广泛采用的功耗感知服务层。值得关注作者是否会发布参考实现或直接贡献到vLLM主线分支。

常见问题

PALS具体对vLLM服务栈做了哪些改动？

PALS增加了GPU功耗控制层，根据当前工作负载和SLA目标动态调整功耗状态（DVFS），直接集成在vLLM调度器中。

PALS系统的具体性能指标是什么？

在功耗约束下实现+26.3%能效提升和4-7倍SLO违规减少，无需重新训练模型或修改服务API。

PALS专为哪类模型设计？

专为混合专家（MoE）模型设计，如Mixtral、DeepSeek V3、Qwen MoE变体 — 不同专家具有不同的计算特性。

arXiv:2605.21427：PALS — MoE模型的功耗感知LLM服务实现+26.3%能效提升与4-7倍QoS违规减少

PALS具体做了什么？

具体性能如何？

为什么MoE模型特别值得关注？

这对AI基础设施意味着什么？

常见问题

来源

相关新闻