🟡 📦 开源 发布于: · 1 分钟阅读 ·

PyTorch: ExecuTorch 扩展至 Arm Cortex-A、Cortex-M 与 Ethos-U85 NPU 边缘 AI 推理

编辑插图:搭载 Arm 芯片和神经网络图形的边缘设备。

ExecuTorch on Arm 是 PyTorch 基金会于 2026 年 5 月 12 日发布的新计划,将 ExecuTorch 运行时扩展至 Arm Cortex-A 和 Cortex-M CPU 以及 Ethos-U NPU 加速器。OPT-125M Transformer 和 MobileNetV2 模型可在 Raspberry Pi 5 和配备 256 个 MAC 单元的 Ethos-U85 上运行,Arm Education 仓库提供边缘 AI 部署的实践实验室。

🤖

本文由人工智能基于一手来源生成。

PyTorch 基金会于 2026 年 5 月 12 日宣布将 ExecuTorch 运行时正式扩展至 Arm Cortex-A、Cortex-M 和 Ethos-U NPU 平台。此次计划将高效的 PyTorch 推理带到资源受限的边缘设备——可穿戴设备、智能摄像头、IoT 系统——同时保留 PyTorch 开发者体验。

ExecuTorch 现在支持哪些 Arm 硬件?

CPU 方面覆盖 Cortex-A 平台(如 Raspberry Pi 5)和 Cortex-M 微控制器。ExecuTorch 通过 XNNPACK 后端使用 KleidiAI 微内核和 Neon 架构特性,与 PyTorch 即时执行模式相比显著降低了延迟。PyTorch 文档警告:没有 XNNPACK 委托时,运行时延迟可能高于即时执行模式,尽管占用更小。

NPU 方面针对 Ethos-U 加速器,通常与 Cortex-A 或 Cortex-M CPU 配合使用。硬件示例是配备 256 个 MAC(乘加)单元的 Ethos-U85,ExecuTorch 将其视为主要部署目标。

教程涵盖哪些模型?

文档演示了三种场景:通过 XNNPACK CPU 后端在 Raspberry Pi 5 上运行 OPT-125M Transformer 模型;通过 EthosUQuantizer 和 EthosUCompileSpec API 将 MobileNetV2 INT8 模型部署到 Ethos-U NPU;以及 MobileNetV2 + LRN 案例,展示运行时如何处理不支持的算子。

开发者在 Arm Education 仓库中获得什么?

GitHub 仓库 arm-education/executorch_on_arm_labs 包含实践实验室:在 Raspberry Pi 5 上进行 CPU 推理、使用 Ethos-U NPU 进行硬件加速推理,以及 Model Explorer 适配器(由 Arm 开发)用于可视化 .pte 文件、后端分区、TOSA 表示和用于 Arm ML SDK Vulkan 的 VGF 文件。实验室内容由 Marcelo Rovai(UNIFEI 大学,边缘 AI 基金会)和来自 IIIT 班加罗尔的学术审阅者共同准备。

在边缘 AI 生态系统中的定位

部署流水线将 PyTorch 模型经过量化、TOSA(张量算子集架构)表示和 Vela 优化后转换为 .pte 工件。静态计算图确保在受限系统上的可预测执行。ExecuTorch 将 PyTorch 生态系统定位为边缘推理领域的重要参与者,而该领域此前由 TensorFlow Lite Micro 和 ONNX Runtime 主导。

常见问题

哪些模型可以在 Arm 硬件上通过 ExecuTorch 运行?
文档演示了在 Raspberry Pi 5(Cortex-A)上运行 OPT-125M Transformer 模型,以及在 Ethos-U NPU 上运行量化 MobileNetV2(INT8)模型;所有模型必须兼容 PyTorch 并可导出为轻量级 .pte(PyTorch Export)格式。
XNNPACK 后端委托提供什么优势?
XNNPACK 后端使用 KleidiAI 微内核和 Neon 架构特性,可在 Cortex-A CPU 上显著降低延迟;如果没有 XNNPACK 委托,ExecuTorch 的延迟可能高于 PyTorch 即时执行模式,尽管运行时占用更小。