🟡 🏥 실무 게시일: · 2 분 읽기 ·

arXiv:2605.21427:PALS — MoE 모델 전력 인식 LLM 서빙으로 +26.3% 에너지 효율 및 4-7배 QoS 위반 감소 달성

arXiv:2605.21427 ↗

편집 일러스트:2605.21427:PALS — MoE 모델 전력 인식 LLM 서빙으로 +26.3% 에너지 효율 및 4-7배 QoS 위반 감소

연구자들은 2026년 5월 21일 arXiv 프리프린트 서버에 PALS를 공개했다. PALS는 GPU 전력 제어를 MoE 모델 LLM 서빙에 직접 통합하는 런타임 시스템이다. 경량 오프라인 전력-성능 모델과 피드백 컨트롤러를 활용해 처리량 목표에 따라 구성을 동적 최적화하며, 전력 제한 하에서 26.3% 에너지 효율 향상과 4-7배 QoS 위반 감소를 달성한다. API 변경이나 모델 재훈련 없이 vLLM에 통합되며, 데이터센터의 가장 큰 운영 병목 — GPU 클러스터 에너지 소비 — 을 직접 해결한다.

🤖

이 기사는 AI가 1차 출처를 기반으로 생성했습니다.

연구자 그룹은 2026년 5월 21일 PALS — Power-Aware LLM Serving for Mixture-of-Experts ModelsarXiv:2605.21427) 프리프린트를 발표했다. LLM 서빙 인프라의 에너지 소비를 최적화하는 런타임 시스템을 제시하며, 2025-2026년 AI 인프라 성장의 주요 운영 병목이 된 문제 — GPU 데이터센터의 에너지 소비 — 를 직접 해결한다.

PALS는 구체적으로 무엇을 하는가?

PALS는 vLLM 서빙 프레임워크와 GPU 하드웨어 사이에 삽입되는 레이어로, 세 단계로 작동한다.

오프라인 모델링 — 연구자들은 다양한 전문가 구성에서 GPU 전력 상태(DVFS — 동적 전압 및 주파수 스케일링)추론 지연 및 처리량 을 연결하는 경량 오프라인 모델을 구축한다. 모델은 소형(KB 수준)이며 실시간 ML 추론이 필요 없다.

온라인 피드백 컨트롤러 — 런타임에서 PALS는 현재 워크로드(동시 요청 수, 입력 토큰 속도, 전문가 활용 패턴)를 모니터링하고 지정된 SLA 목표(p95 지연, 처리량 목표)에 맞춰 에너지 소비를 최소화하도록 GPU 전력 상태를 동적으로 조정한다.

vLLM 통합 — 모든 작업은 vLLM 스케줄러 훅을 통해 이루어진다. 기존 vLLM API는 변경 없이 유지되고 모델 재훈련이나 수정도 필요 없다. 이는 기존 서빙 스택에 드롭인 배포를 가능하게 하는 중요한 엔지니어링 선택이다.

구체적인 성능은?

PALS는 실험에서 다음 결과를 보였다.

  • +26.3% 에너지 효율 향상(측정 단위:소비 줄당 생성 토큰 수)
  • 전력 캡핑 제약 하에서 QoS 위반율 4-7배 감소
  • 표준 전력 예산에서 처리량 저하 없음

에너지 효율은 GPU 에너지 비용이 LLM 추론 운영 비용의 상당 부분을 차지하는 하이퍼스케일 운영자(Meta, Google, Microsoft, AWS, Anthropic, OpenAI)에게 특히 중요한 지표다.

왜 MoE 모델이 특히 흥미로운가?

혼합 전문가 아키텍처(Mixtral 8x22B, DeepSeek V3 256전문가 희소 구조, Qwen MoE 변형)는 이질적인 계산 프로파일 을 가진다 — 서로 다른 전문가가 서로 다른 입력 시퀀스에 대해 활성화되므로 고정된 전력 상태는 최적이 아니다.

기존 LLM 서빙 스택은 MoE 모델을 밀집 모델처럼 취급하여 어떤 전문가 서브셋이 활성화되든 GPU 전체에 동일한 전력 상태를 적용한다. PALS는 이 가변성을 활용한다 — 모델이 현재 계산이 적은 경로를 실행할 때 지연에 영향 없이 GPU 전력 상태를 낮춘다.

AI 인프라에 무엇을 의미하는가?

에너지 효율은 2026년 모든 하이퍼스케일 운영자에게 스케일링의 핵심 요소 다. NVIDIA H100 및 B200 GPU 클러스터는 상당한 메가와트의 전력을 소비하며, 전력 접근성은 새 데이터센터 구축의 심각한 제약이 되었다(“전력 격차” 문제로 알려짐).

PALS와 유사한 최적화 기술은 서빙 스택 경제에 전략적으로 중요 하다. 26.3% 향상은 동일한 처리량을 26.3% 적은 GPU 용량으로 달성하거나, 기존 GPU 클러스터가 추가 전력 없이 26.3% 더 확장될 수 있음을 의미한다.

오픈소스 커뮤니티에게는 vLLM(가장 인기 있는 오픈소스 LLM 서빙 프레임워크)에의 통합이 PALS가 최초로 널리 채택되는 전력 인식 서빙 레이어가 될 가능성을 보여준다. 저자들이 참조 구현을 공개하거나 vLLM 메인라인 브랜치에 직접 기여할지 주목할 필요가 있다.

자주 묻는 질문

PALS는 vLLM 서빙 스택에 구체적으로 무엇을 변경하는가?
PALS는 현재 워크로드와 SLA 목표에 따라 전력 상태(DVFS)를 동적으로 조정하는 GPU 전력 제어 레이어를 추가하며, vLLM 스케줄러에 직접 통합된다.
PALS 시스템의 구체적인 성능은 무엇인가?
전력 제약 하에서 +26.3% 에너지 효율 향상과 4-7배 SLO 위반 감소를 달성하며, 모델 재훈련이나 서빙 API 변경이 필요 없다.
PALS는 어떤 모델을 위해 설계되었는가?
Mixtral, DeepSeek V3, Qwen MoE 변형 등 서로 다른 전문가가 다른 계산 프로파일을 가진 혼합 전문가(MoE) 모델을 위해 설계되었다.