🟡 📦 Open Source Veröffentlicht: · 2 Min. Lesezeit ·

PyTorch: ExecuTorch kommt auf Arm Cortex-A, Cortex-M und Ethos-U85 NPU für Edge-KI-Inferenz

Redaktionelle Illustration: Edge-Geräte mit Arm-Chips und neuronaler Netzwerk-Grafik.

ExecuTorch on Arm ist eine neue PyTorch-Foundation-Initiative vom 12. Mai 2026, die die ExecuTorch-Runtime auf Arm Cortex-A- und Cortex-M-CPUs sowie Ethos-U-NPU-Beschleuniger ausweitet. Das OPT-125M-Transformer- und das MobileNetV2-Modell laufen auf Raspberry Pi 5 und Ethos-U85 mit 256 MAC-Einheiten; das Arm-Education-Repository bringt praxisorientierte Labs für Edge-KI-Deployment.

🤖

Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.

Die PyTorch Foundation erweiterte am 12. Mai 2026 offiziell die ExecuTorch-Runtime auf Arm Cortex-A, Cortex-M und Ethos-U-NPU-Plattformen. Die Initiative bringt effiziente PyTorch-Inferenz auf ressourcenbeschränkte Edge-Geräte — Wearables, Smart-Kameras, IoT-Systeme — unter Beibehaltung der PyTorch-Entwicklererfahrung.

Welche Arm-Hardware unterstützt ExecuTorch jetzt?

Die CPU-Seite deckt Cortex-A-Plattformen wie Raspberry Pi 5 und Cortex-M-Mikrocontroller ab. ExecuTorch nutzt KleidiAI-Mikrokerne und Neon-Architekturmerkmale über das XNNPACK-Backend, was signifikante Latenzreduzierung gegenüber dem PyTorch-Eager-Modus liefert. Die PyTorch-Dokumentation warnt: Ohne XNNPACK-Delegation kann die Runtime höhere Latenz als der Eager-Modus aufweisen, behält aber einen kleineren Footprint.

Die NPU-Seite zielt auf Ethos-U-Beschleuniger, die üblicherweise mit einem Cortex-A- oder Cortex-M-CPU kombiniert werden. Ein Hardware-Beispiel ist Ethos-U85 mit 256 MAC-(Multiply-Accumulate-)Einheiten, das ExecuTorch als primäres Deployment-Ziel behandelt.

Welche Modelle deckt das Tutorial ab?

Die Dokumentation demonstriert drei Szenarien. Das OPT-125M-Transformer-Modell läuft auf Raspberry Pi 5 über das XNNPACK-CPU-Backend. MobileNetV2 INT8 wird über die EthosUQuantizer- und EthosUCompileSpec-API auf einem Ethos-U-NPU deployed. Der MobileNetV2-+LRN-Fall zeigt, wie die Runtime nicht unterstützte Operatoren behandelt.

Was erhalten Entwickler im Arm-Education-Repository?

Das GitHub-Repository arm-education/executorch_on_arm_labs enthält praxisorientierte Labs für CPU-Inferenz auf Raspberry Pi 5, hardwarebeschleunigte Inferenz mit Ethos-U-NPU sowie Model-Explorer-Adapter (von Arm entwickelt) zur Visualisierung von .pte-Dateien, Backend-Partitionierung, TOSA-Darstellung und VGF-Dateien für das Arm ML SDK Vulkan. Den Lab-Inhalt haben Marcelo Rovai (UNIFEI University, Edge AI Foundation) und akademische Reviewer vom IIIT Bangalore vorbereitet.

Einordnung im Edge-KI-Ökosystem

Die Deployment-Pipeline wandelt ein PyTorch-Modell durch Quantisierung, TOSA-(Tensor-Operator-Set-Architecture-)Darstellung und Vela-Optimierung in ein .pte-Artefakt um. Ein statischer Computation-Graph sorgt für vorhersehbare Ausführung auf ressourcenbeschränkten Systemen. ExecuTorch positioniert das PyTorch-Ökosystem damit als ernsthaften Spieler für Edge-Inferenz, wo bisher TensorFlow Lite Micro und ONNX Runtime dominierten.

Häufig gestellte Fragen

Welche Modelle können über ExecuTorch auf Arm-Hardware ausgeführt werden?
Die Dokumentation demonstriert das OPT-125M-Transformer-Modell auf Raspberry Pi 5 (Cortex-A) und quantisierte MobileNetV2-(INT8-)Modelle auf einem Ethos-U-NPU; alle Modelle müssen PyTorch-kompatibel und in das leichtgewichtige .pte-(PyTorch-Export-)Format exportierbar sein.
Was bietet die XNNPACK-Backend-Delegation?
Das XNNPACK-Backend nutzt KleidiAI-Mikrokerne und Neon-Architekturmerkmale und liefert signifikante Latenzreduzierung auf einem Cortex-A-CPU; ohne XNNPACK-Delegation kann ExecuTorch höhere Latenz als der PyTorch-Eager-Modus aufweisen, behält aber einen kleineren Runtime-Footprint.