PyTorch：ExecuTorch가 Arm CPU와 NPU를 지원합니다

ExecuTorch on Arm은 2026년 5월 12일에 발표된 PyTorch Foundation의 새로운 이니셔티브로, ExecuTorch 런타임을 Arm Cortex-A·Cortex-M CPU와 Ethos-U NPU 가속기로 확장합니다. OPT-125M 트랜스포머와 MobileNetV2 모델이 Raspberry Pi 5와 256 MAC 유닛의 Ethos-U85에서 실행되며, Arm Education 저장소는 엣지 AI 배포를 위한 실습 랩을 제공합니다.

PyTorch Foundation은 2026년 5월 12일 ExecuTorch 런타임을 Arm Cortex-A, Cortex-M, Ethos-U NPU 플랫폼으로 공식 확장한다고 발표했습니다. 이 이니셔티브는 리소스가 제한된 엣지 디바이스——웨어러블, 스마트 카메라, IoT 시스템——에 효율적인 PyTorch 추론을 제공하면서 PyTorch 개발자 경험을 유지합니다.

ExecuTorch가 이제 지원하는 Arm 하드웨어는 무엇입니까?

CPU 측은 Raspberry Pi 5와 같은 Cortex-A 플랫폼과 Cortex-M 마이크로컨트롤러를 지원합니다. ExecuTorch는 XNNPACK 백엔드를 통해 KleidiAI 마이크로커널과 Neon 아키텍처 기능을 사용하며 PyTorch eager 모드 대비 지연 시간을 크게 줄입니다. PyTorch 문서는 경고합니다: XNNPACK 위임 없이는 런타임이 더 작은 풋프린트를 유지하더라도 eager 모드보다 지연 시간이 높을 수 있습니다.

NPU 측은 일반적으로 Cortex-A 또는 Cortex-M CPU와 결합하는 Ethos-U 가속기를 대상으로 합니다. 하드웨어 예시는 256 MAC(곱셈-누적) 유닛을 가진 Ethos-U85로, ExecuTorch가 주요 배포 대상으로 취급합니다.

튜토리얼에서 다루는 모델은 무엇입니까?

문서에서는 세 가지 시나리오를 시연합니다. OPT-125M 트랜스포머 모델을 XNNPACK CPU 백엔드로 Raspberry Pi 5에서 실행. MobileNetV2 INT8 모델을 EthosUQuantizer와 EthosUCompileSpec API를 통해 Ethos-U NPU에 배포. MobileNetV2 + LRN 케이스에서는 런타임이 지원되지 않는 연산자를 처리하는 방법을 보여줍니다.

개발자가 Arm Education 저장소에서 얻는 것은 무엇입니까?

GitHub 저장소 arm-education/executorch_on_arm_labs에는 실습 랩이 포함됩니다: Raspberry Pi 5에서 CPU 추론, Ethos-U NPU를 사용한 하드웨어 가속 추론, 그리고 .pte 파일·백엔드 파티셔닝·TOSA 표현·Arm ML SDK Vulkan용 VGF 파일 시각화를 위한 Model Explorer 어댑터(Arm이 개발). 랩 콘텐츠는 Marcelo Rovai(UNIFEI 대학교, Edge AI Foundation)와 IIIT 방갈로르의 학술 검토자들이 준비했습니다.

엣지 AI 생태계에서의 위치

배포 파이프라인은 PyTorch 모델을 양자화, TOSA(텐서 연산자 집합 아키텍처) 표현, Vela 최적화를 거쳐 .pte 아티팩트로 변환합니다. 정적 계산 그래프는 제한된 시스템에서 예측 가능한 실행을 보장합니다. ExecuTorch는 PyTorch 생태계를 엣지 추론 분야의 본격적인 플레이어로 포지셔닝합니다——이 분야는 지금까지 TensorFlow Lite Micro와 ONNX Runtime이 주도해왔습니다.

자주 묻는 질문

Arm 하드웨어에서 ExecuTorch로 어떤 모델을 실행할 수 있습니까?

문서에서는 Raspberry Pi 5(Cortex-A)에서 OPT-125M 트랜스포머 모델과 Ethos-U NPU에서 양자화된 MobileNetV2(INT8) 모델을 시연합니다. 모든 모델은 PyTorch 호환이어야 하며 경량 .pte(PyTorch Export) 형식으로 내보낼 수 있어야 합니다.

XNNPACK 백엔드 위임은 무엇을 제공합니까?

XNNPACK 백엔드는 KleidiAI 마이크로커널과 Neon 아키텍처 기능을 사용해 Cortex-A CPU에서 지연 시간을 크게 줄입니다. XNNPACK 위임 없이는 ExecuTorch가 더 작은 런타임 풋프린트를 유지하더라도 PyTorch eager 모드보다 지연 시간이 높을 수 있습니다.

PyTorch: ExecuTorch가 Arm Cortex-A·Cortex-M·Ethos-U85 NPU 엣지 AI 추론으로 확장

ExecuTorch가 이제 지원하는 Arm 하드웨어는 무엇입니까?

튜토리얼에서 다루는 모델은 무엇입니까?

개발자가 Arm Education 저장소에서 얻는 것은 무엇입니까?

엣지 AI 생태계에서의 위치

자주 묻는 질문

출처

관련 뉴스