🟡 🏥 実践 公開日: · 3 分で読めます ·

arXiv:2605.21427:PALS — MoEモデルの電力対応LLMサービングで+26.3%エネルギー効率と4-7倍QoS違反削減を達成

arXiv:2605.21427 ↗

編集イラスト:2605.21427:PALS — MoEモデルの電力対応LLMサービングで+26.3%エネルギー効率と4-7倍QoS違反削減を達成

研究者たちは2026年5月21日、arXivプレプリントサーバーにPALSを公表した。PALSはGPU電力制御をMoEモデルのLLMサービングに直接統合するランタイムシステムだ。軽量なオフライン電力性能モデルとフィードバックコントローラーを用いてスループット目標に基づく設定を動的最適化し、電力制約下で26.3%のエネルギー効率向上と4-7倍のQoS違反削減を実現する。APIの変更やモデルの再トレーニングなしにvLLMに統合可能で、データセンターの増大する運営上のボトルネック — GPUクラスターのエネルギー消費 — に直接対処する。

🤖

この記事はAIにより一次情報源から生成されました。

研究者グループは2026年5月21日、PALS — Power-Aware LLM Serving for Mixture-of-Experts ModelsarXiv:2605.21427)のプレプリントを発表した。LLMサービングインフラのエネルギー消費を最適化するランタイムシステムを提示するもので、2025-2026年にAIインフラ成長の主要な運営上のボトルネックとなった問題 — GPUデータセンターのエネルギー消費 — に直接対処している。

PALSは具体的に何をするのか?

PALSはvLLMサービングフレームワークとGPUハードウェアの間に挿入されるレイヤーで、3段階で機能する。

オフラインモデリング — 研究者たちは、さまざまな専門家設定におけるGPU電力状態(DVFS — 動的電圧周波数スケーリング)推論レイテンシおよびスループットを関連付ける軽量なオフラインモデルを構築する。モデルは小さく(KBサイズ)、リアルタイムのML推論を必要としない。

オンラインフィードバックコントローラー — ランタイムでPALSが現在のワークロード(並行リクエスト数、入力トークンレート、専門家利用率パターン)を監視し、指定されたSLAターゲット(p95レイテンシ、スループットターゲット)に対してエネルギー消費を最小化するようGPU電力状態を動的に調整する。

vLLM統合 — すべてはvLLMスケジューラーのフックを通じて行われる。既存のvLLM APIは変更なし。モデルの再トレーニングや変更も不要だ。これは既存のサービングスタックへのドロップイン展開を可能にする重要なエンジニアリング上の選択だ。

具体的なパフォーマンスは?

PALSは実験で以下の結果を示している。

  • +26.3%のエネルギー効率向上(測定単位:消費ジュールあたり生成トークン数)
  • 電力キャッピング制約下でQoS違反率が4-7倍削減
  • 標準的な電力予算での劣化なし

エネルギー効率は、GPU電力コストがLLM推論の運営コストのかなりの部分を占めるハイパースケール事業者(Meta、Google、Microsoft、AWS、Anthropic、OpenAI)にとって特に重要な指標だ。

なぜMoEモデルが特に興味深いのか?

混合専門家アーキテクチャ(Mixtral 8x22B、DeepSeek V3 256専門家スパース構造、Qwen MoEバリアント)は異種計算プロファイルを持つ — 異なる専門家が異なる入力シーケンスに対して活性化されるため、固定の電力状態は最適ではない。

従来のLLMサービングスタックはMoEモデルを密なモデルとして扱い、どの専門家サブセットが活性化されているかに関わらずGPU全体に同じ電力状態を適用する。PALSはこの変動性を活用する — モデルが現在計算負荷の少ないパスを実行しているとき、レイテンシに影響を与えずにGPU電力状態を下げる。

AIインフラにとって何を意味するか?

エネルギー効率は2026年においてすべてのハイパースケール事業者にとってスケーリングの重要な要因だ。NVIDIA H100およびB200 GPUクラスターは相当なメガワットの電力を消費し、電力へのアクセスは新しいデータセンターの建設における深刻な制約となっている(「電力ギャップ」問題として知られる)。

PALSと類似の最適化技術はサービングスタックの経済性にとって戦略的に重要だ。26.3%の改善は、同じスループットを26.3%少ないGPUキャパシティで達成できること、あるいは既存のGPUクラスターが追加電力なしで26.3%多くスケールできることを意味する。

オープンソースコミュニティにとって、vLLM(最も人気のあるオープンソースLLMサービングフレームワーク)への統合は、PALSが最初に広く採用される電力対応サービングレイヤーになる可能性を示す。著者たちが参照実装を公開するか、vLLMのメインラインブランチに直接貢献するかを注目したい。

よくある質問

PALSはvLLMサービングスタックに具体的に何を変更するか?
PALSは現在のワークロードとSLAターゲットに応じて電力状態(DVFS)を動的に調整するGPU電力制御レイヤーを追加し、vLLMスケジューラーに直接統合される。
PALSシステムの具体的なパフォーマンスは?
電力制約下で+26.3%のエネルギー効率向上と4-7倍のSLO違反削減を実現し、モデルの再トレーニングやサービングAPIの変更は不要。
PALSはどのモデル向けに設計されているか?
Mixtral、DeepSeek V3、Qwen MoEバリアントなど、異なる専門家が異なる計算プロファイルを持つ混合専門家(MoE)モデル向けに設計されている。