🟡 🏥 实践应用 发布于: · 2 分钟阅读 ·

arXiv:2605.21427:PALS — MoE模型的功耗感知LLM服务实现+26.3%能效提升与4-7倍QoS违规减少

arXiv:2605.21427 ↗

编辑插图:2605.21427:PALS — MoE模型功耗感知LLM服务实现+26.3%能效提升与4-7倍QoS违规减少

研究人员于2026年5月21日在arXiv预印本服务器上发布了PALS — 一个将GPU功耗控制直接集成到MoE模型LLM服务中的运行时系统。PALS利用轻量级离线功耗性能模型和反馈控制器,根据吞吐量目标动态优化配置。在功耗限制下实现了26.3%的能效提升和4-7倍QoS违规减少,无需修改API或重新训练模型即可集成到vLLM。该方案直接解决了数据中心日益突出的运营瓶颈 — GPU集群能耗已成为规模增长的主要限制。

🤖

本文由人工智能基于一手来源生成。

一组研究人员于2026年5月21日发布了预印本论文 PALS — Power-Aware LLM Serving for Mixture-of-Experts ModelsarXiv:2605.21427),提出了一个用于优化LLM服务基础设施能耗的运行时系统。PALS直接解决了2025-2026年成为AI基础设施增长主要运营瓶颈的问题 — GPU数据中心的能耗

PALS具体做了什么?

PALS是插入在vLLM服务框架和GPU硬件之间的一个层,分三步运行:

离线建模 — 研究人员构建轻量级离线模型,将GPU功耗状态(DVFS — 动态电压和频率调节)与不同专家配置下的推理延迟和吞吐量相关联。这些模型体积小(KB级别),不需要实时机器学习推理。

在线反馈控制器 — 在运行时,PALS监控当前工作负载(并发请求数、输入token速率、专家利用率模式)并动态调整GPU功耗状态,目标是在给定SLA约束(p95延迟、吞吐量目标)下最小化能耗。

vLLM集成 — 所有操作通过vLLM调度器钩子完成,现有vLLM API保持不变,模型无需重新训练或修改。这是一个重要的工程选择,允许将PALS直接部署到现有服务栈中。

具体性能如何?

PALS在实验中展示了以下结果:

  • +26.3%能效提升(度量单位:每焦耳生成的token数)
  • 4-7倍QoS违规率降低(在功耗上限约束下)
  • 标准功耗预算下吞吐量不降级

能效对于超大规模运营商(Meta、Google、Microsoft、AWS、Anthropic、OpenAI)尤为重要,因为GPU能耗在LLM推理的运营成本中占据相当大的比例。

为什么MoE模型特别值得关注?

混合专家架构(Mixtral 8x22B、DeepSeek V3 256专家稀疏架构、Qwen MoE变体)具有异构计算特性 — 不同专家针对不同输入序列被激活,这意味着固定功耗状态并非最优。

传统LLM服务栈将MoE模型视同稠密模型处理 — 无论激活哪些专家子集,都对整个GPU施加相同的功耗状态。PALS利用这种可变性 — 当模型当前运行计算量较小的路径时,在不影响延迟的前提下降低GPU功耗状态。

这对AI基础设施意味着什么?

在2026年,能效是所有超大规模运营商规模扩展的关键因素。NVIDIA H100和B200 GPU集群消耗大量兆瓦电力,而电力获取已成为新建数据中心的严重限制(即所谓的”功率缺口”问题)。

PALS及类似优化技术对服务栈经济具有战略意义。26.3%的提升意味着同等吞吐量可以少用26.3%的GPU容量,或者现有GPU集群可以在不增加电力的情况下扩展26.3%。

对于开源社区,集成到vLLM(最流行的开源LLM服务框架)意味着PALS可能成为首个被广泛采用的功耗感知服务层。值得关注作者是否会发布参考实现或直接贡献到vLLM主线分支。

常见问题

PALS具体对vLLM服务栈做了哪些改动?
PALS增加了GPU功耗控制层,根据当前工作负载和SLA目标动态调整功耗状态(DVFS),直接集成在vLLM调度器中。
PALS系统的具体性能指标是什么?
在功耗约束下实现+26.3%能效提升和4-7倍SLO违规减少,无需重新训练模型或修改服务API。
PALS专为哪类模型设计?
专为混合专家(MoE)模型设计,如Mixtral、DeepSeek V3、Qwen MoE变体 — 不同专家具有不同的计算特性。