PyTorch ExecuTorch MLX: Apple GPU 3~6배 추론 가속

PyTorch 팀이 실험적인 ExecuTorch MLX Delegate를 공개했습니다. Apple MLX 프레임워크와 Metal GPU 커널을 활용해 Apple Silicon 칩에서 3~6배의 처리량 향상을 제공하는 백엔드입니다. Llama 3.2·Qwen 3·Phi-4 mini·Whisper·Voxtral 실시간 스트리밍 전사를 지원합니다.

PyTorch 팀이 실험적인 ExecuTorch MLX Delegate를 공개했습니다. 이는 Apple MLX 프레임워크와 최적화된 Metal GPU 커널을 사용해 macOS에서 PyTorch 모델을 가속하는 새로운 백엔드입니다. 그 결과 생성형 AI 워크로드에서 macOS의 기존 ExecuTorch 위임과 비교해 3~6배의 처리량 향상을 달성합니다.

ExecuTorch MLX Delegate는 어떻게 작동합니까?

ExecuTorch는 PyTorch의 온디바이스 추론 런타임으로, torch.export로 모델을 내보낸 후 실행 준비가 된 .pte 형식으로 낮춥니다. MLX Delegate는 새로운 단계를 추가합니다. MLXPartitioner가 내보낸 계산 그래프를 분석하고 호환 가능한 서브그래프를 Apple MLX로 직접 위임하여 Apple Silicon GPU에서 실행합니다.

작업 흐름은 3단계입니다:

torch.export로 모델 내보내기
MLXPartitioner를 사용해 to_edge_transform_and_lower로 낮추기
ExecuTorch 런타임으로 .pte 파일 실행

이 위임은 양자화 matmul·멀티헤드 어텐션·회전 위치 임베딩·Mixture-of-Experts 라우팅을 포함한 약 90개의 ATen 연산을 지원합니다.

지원되는 모델은 무엇입니까?

Voxtral은 실시간 전사를 실제로 지원합니까?

그렇습니다――MLX Delegate는 **Mistral Voxtral Realtime(4B)**을 지원하며, 인터넷 연결 없이 Mac 컴퓨터에서 직접 라이브 마이크 입력을 사용한 실시간 스트리밍 전사가 가능합니다.

지원 모델 전체 목록:

LLM: Llama 3.2(1B), Qwen 3(0.6B·1.7B·4B), Phi-4 mini(3.8B), Gemma 3(1B·4B)
MoE 모델: 256개 전문가와 top-8 라우팅을 갖춘 Qwen 3.5 35B-A3B
음성-텍스트 변환: OpenAI Whisper(tiny~large-v3-turbo), NVIDIA Parakeet TDT(0.6B), Mistral Voxtral(3B)

양자화는 BF16·FP16·FP32 및 TorchAO를 통한 2/4/8비트 어피니티 양자화, NVFP4를 지원합니다.

제한 사항 및 상태

이 위임은 실험적으로 표시되어 있으며 API와 지원 기능이 변경될 수 있습니다. 가속화는 Metal GPU 지원을 갖춘 Apple Silicon Mac(M1/M2/M3/M4)에서만 사용 가능합니다. Intel Mac은 지원되지 않습니다. 다른 모든 플랫폼(Android·Linux·Windows)은 기존 ExecuTorch 위임을 계속 사용합니다.

소스 코드는 GitHub의 PyTorch ExecuTorch 저장소에서 확인할 수 있습니다.

자주 묻는 질문

ExecuTorch란 무엇입니까?

ExecuTorch는 PyTorch의 온디바이스 추론 런타임으로, 클라우드 없이 기기에서 직접 AI 모델을 실행합니다. torch.export를 통해 모델을 내보내고 통합 API로 다양한 하드웨어 백엔드에서 실행합니다.

Apple MLX란 무엇입니까?

Apple MLX는 Apple Silicon(M1/M2/M3/M4)에 최적화된 오픈 소스 머신러닝 프레임워크입니다. 통합 메모리 모델과 Apple의 Metal GPU 커널을 사용해 Mac 컴퓨터에서 최대 성능을 제공합니다.

ExecuTorch 맥락에서 『delegate』란 무엇을 의미합니까?

Delegate는 ExecuTorch가 일부 계산을 특정 하드웨어나 프레임워크――이 경우 Apple MLX――로 재라우팅(위임)하는 데 사용하는 백엔드 모듈입니다. MLXPartitioner는 MLX로 가속할 수 있는 서브그래프를 자동으로 식별하고 Apple Silicon GPU에 위임합니다.

PyTorch: ExecuTorch MLX Delegate가 Apple Silicon GPU에서 모델 추론을 3~6배 가속

ExecuTorch MLX Delegate는 어떻게 작동합니까?

지원되는 모델은 무엇입니까?

Voxtral은 실시간 전사를 실제로 지원합니까?

제한 사항 및 상태

자주 묻는 질문

출처

관련 뉴스