PyTorch：ExecuTorch 支持 Arm CPU 与 NPU

ExecuTorch on Arm 是 PyTorch 基金会于 2026 年 5 月 12 日发布的新计划，将 ExecuTorch 运行时扩展至 Arm Cortex-A 和 Cortex-M CPU 以及 Ethos-U NPU 加速器。OPT-125M Transformer 和 MobileNetV2 模型可在 Raspberry Pi 5 和配备 256 个 MAC 单元的 Ethos-U85 上运行，Arm Education 仓库提供边缘 AI 部署的实践实验室。

PyTorch 基金会于 2026 年 5 月 12 日宣布将 ExecuTorch 运行时正式扩展至 Arm Cortex-A、Cortex-M 和 Ethos-U NPU 平台。此次计划将高效的 PyTorch 推理带到资源受限的边缘设备——可穿戴设备、智能摄像头、IoT 系统——同时保留 PyTorch 开发者体验。

ExecuTorch 现在支持哪些 Arm 硬件？

CPU 方面覆盖 Cortex-A 平台（如 Raspberry Pi 5）和 Cortex-M 微控制器。ExecuTorch 通过 XNNPACK 后端使用 KleidiAI 微内核和 Neon 架构特性，与 PyTorch 即时执行模式相比显著降低了延迟。PyTorch 文档警告：没有 XNNPACK 委托时，运行时延迟可能高于即时执行模式，尽管占用更小。

NPU 方面针对 Ethos-U 加速器，通常与 Cortex-A 或 Cortex-M CPU 配合使用。硬件示例是配备 256 个 MAC（乘加）单元的 Ethos-U85，ExecuTorch 将其视为主要部署目标。

教程涵盖哪些模型？

文档演示了三种场景：通过 XNNPACK CPU 后端在 Raspberry Pi 5 上运行 OPT-125M Transformer 模型；通过 EthosUQuantizer 和 EthosUCompileSpec API 将 MobileNetV2 INT8 模型部署到 Ethos-U NPU；以及 MobileNetV2 + LRN 案例，展示运行时如何处理不支持的算子。

开发者在 Arm Education 仓库中获得什么？

GitHub 仓库 arm-education/executorch_on_arm_labs 包含实践实验室：在 Raspberry Pi 5 上进行 CPU 推理、使用 Ethos-U NPU 进行硬件加速推理，以及 Model Explorer 适配器（由 Arm 开发）用于可视化 .pte 文件、后端分区、TOSA 表示和用于 Arm ML SDK Vulkan 的 VGF 文件。实验室内容由 Marcelo Rovai（UNIFEI 大学，边缘 AI 基金会）和来自 IIIT 班加罗尔的学术审阅者共同准备。

在边缘 AI 生态系统中的定位

部署流水线将 PyTorch 模型经过量化、TOSA（张量算子集架构）表示和 Vela 优化后转换为 .pte 工件。静态计算图确保在受限系统上的可预测执行。ExecuTorch 将 PyTorch 生态系统定位为边缘推理领域的重要参与者，而该领域此前由 TensorFlow Lite Micro 和 ONNX Runtime 主导。

常见问题

哪些模型可以在 Arm 硬件上通过 ExecuTorch 运行？

文档演示了在 Raspberry Pi 5（Cortex-A）上运行 OPT-125M Transformer 模型，以及在 Ethos-U NPU 上运行量化 MobileNetV2（INT8）模型；所有模型必须兼容 PyTorch 并可导出为轻量级 .pte（PyTorch Export）格式。

XNNPACK 后端委托提供什么优势？

XNNPACK 后端使用 KleidiAI 微内核和 Neon 架构特性，可在 Cortex-A CPU 上显著降低延迟；如果没有 XNNPACK 委托，ExecuTorch 的延迟可能高于 PyTorch 即时执行模式，尽管运行时占用更小。

PyTorch: ExecuTorch 扩展至 Arm Cortex-A、Cortex-M 与 Ethos-U85 NPU 边缘 AI 推理

ExecuTorch 现在支持哪些 Arm 硬件？

教程涵盖哪些模型？

开发者在 Arm Education 仓库中获得什么？

在边缘 AI 生态系统中的定位

常见问题

来源

相关新闻