PyTorch: ExecuTorch MLX Delegate가 Apple Silicon GPU에서 모델 추론을 3~6배 가속
PyTorch 팀이 실험적인 ExecuTorch MLX Delegate를 공개했습니다. Apple MLX 프레임워크와 Metal GPU 커널을 활용해 Apple Silicon 칩에서 3~6배의 처리량 향상을 제공하는 백엔드입니다. Llama 3.2·Qwen 3·Phi-4 mini·Whisper·Voxtral 실시간 스트리밍 전사를 지원합니다.
이 기사는 AI가 1차 출처를 기반으로 생성했습니다.
PyTorch 팀이 실험적인 ExecuTorch MLX Delegate를 공개했습니다. 이는 Apple MLX 프레임워크와 최적화된 Metal GPU 커널을 사용해 macOS에서 PyTorch 모델을 가속하는 새로운 백엔드입니다. 그 결과 생성형 AI 워크로드에서 macOS의 기존 ExecuTorch 위임과 비교해 3~6배의 처리량 향상을 달성합니다.
ExecuTorch MLX Delegate는 어떻게 작동합니까?
ExecuTorch는 PyTorch의 온디바이스 추론 런타임으로, torch.export로 모델을 내보낸 후 실행 준비가 된 .pte 형식으로 낮춥니다. MLX Delegate는 새로운 단계를 추가합니다. MLXPartitioner가 내보낸 계산 그래프를 분석하고 호환 가능한 서브그래프를 Apple MLX로 직접 위임하여 Apple Silicon GPU에서 실행합니다.
작업 흐름은 3단계입니다:
torch.export로 모델 내보내기MLXPartitioner를 사용해to_edge_transform_and_lower로 낮추기- ExecuTorch 런타임으로
.pte파일 실행
이 위임은 양자화 matmul·멀티헤드 어텐션·회전 위치 임베딩·Mixture-of-Experts 라우팅을 포함한 약 90개의 ATen 연산을 지원합니다.
지원되는 모델은 무엇입니까?
Voxtral은 실시간 전사를 실제로 지원합니까?
그렇습니다――MLX Delegate는 **Mistral Voxtral Realtime(4B)**을 지원하며, 인터넷 연결 없이 Mac 컴퓨터에서 직접 라이브 마이크 입력을 사용한 실시간 스트리밍 전사가 가능합니다.
지원 모델 전체 목록:
- LLM: Llama 3.2(1B), Qwen 3(0.6B·1.7B·4B), Phi-4 mini(3.8B), Gemma 3(1B·4B)
- MoE 모델: 256개 전문가와 top-8 라우팅을 갖춘 Qwen 3.5 35B-A3B
- 음성-텍스트 변환: OpenAI Whisper(tiny~large-v3-turbo), NVIDIA Parakeet TDT(0.6B), Mistral Voxtral(3B)
양자화는 BF16·FP16·FP32 및 TorchAO를 통한 2/4/8비트 어피니티 양자화, NVFP4를 지원합니다.
제한 사항 및 상태
이 위임은 실험적으로 표시되어 있으며 API와 지원 기능이 변경될 수 있습니다. 가속화는 Metal GPU 지원을 갖춘 Apple Silicon Mac(M1/M2/M3/M4)에서만 사용 가능합니다. Intel Mac은 지원되지 않습니다. 다른 모든 플랫폼(Android·Linux·Windows)은 기존 ExecuTorch 위임을 계속 사용합니다.
소스 코드는 GitHub의 PyTorch ExecuTorch 저장소에서 확인할 수 있습니다.
자주 묻는 질문
- ExecuTorch란 무엇입니까?
- ExecuTorch는 PyTorch의 온디바이스 추론 런타임으로, 클라우드 없이 기기에서 직접 AI 모델을 실행합니다. torch.export를 통해 모델을 내보내고 통합 API로 다양한 하드웨어 백엔드에서 실행합니다.
- Apple MLX란 무엇입니까?
- Apple MLX는 Apple Silicon(M1/M2/M3/M4)에 최적화된 오픈 소스 머신러닝 프레임워크입니다. 통합 메모리 모델과 Apple의 Metal GPU 커널을 사용해 Mac 컴퓨터에서 최대 성능을 제공합니다.
- ExecuTorch 맥락에서 『delegate』란 무엇을 의미합니까?
- Delegate는 ExecuTorch가 일부 계산을 특정 하드웨어나 프레임워크――이 경우 Apple MLX――로 재라우팅(위임)하는 데 사용하는 백엔드 모듈입니다. MLXPartitioner는 MLX로 가속할 수 있는 서브그래프를 자동으로 식별하고 Apple Silicon GPU에 위임합니다.