PyTorch: ExecuTorch kommt auf Arm Cortex-A, Cortex-M und Ethos-U85 NPU für Edge-KI-Inferenz
ExecuTorch on Arm ist eine neue PyTorch-Foundation-Initiative vom 12. Mai 2026, die die ExecuTorch-Runtime auf Arm Cortex-A- und Cortex-M-CPUs sowie Ethos-U-NPU-Beschleuniger ausweitet. Das OPT-125M-Transformer- und das MobileNetV2-Modell laufen auf Raspberry Pi 5 und Ethos-U85 mit 256 MAC-Einheiten; das Arm-Education-Repository bringt praxisorientierte Labs für Edge-KI-Deployment.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Die PyTorch Foundation erweiterte am 12. Mai 2026 offiziell die ExecuTorch-Runtime auf Arm Cortex-A, Cortex-M und Ethos-U-NPU-Plattformen. Die Initiative bringt effiziente PyTorch-Inferenz auf ressourcenbeschränkte Edge-Geräte — Wearables, Smart-Kameras, IoT-Systeme — unter Beibehaltung der PyTorch-Entwicklererfahrung.
Welche Arm-Hardware unterstützt ExecuTorch jetzt?
Die CPU-Seite deckt Cortex-A-Plattformen wie Raspberry Pi 5 und Cortex-M-Mikrocontroller ab. ExecuTorch nutzt KleidiAI-Mikrokerne und Neon-Architekturmerkmale über das XNNPACK-Backend, was signifikante Latenzreduzierung gegenüber dem PyTorch-Eager-Modus liefert. Die PyTorch-Dokumentation warnt: Ohne XNNPACK-Delegation kann die Runtime höhere Latenz als der Eager-Modus aufweisen, behält aber einen kleineren Footprint.
Die NPU-Seite zielt auf Ethos-U-Beschleuniger, die üblicherweise mit einem Cortex-A- oder Cortex-M-CPU kombiniert werden. Ein Hardware-Beispiel ist Ethos-U85 mit 256 MAC-(Multiply-Accumulate-)Einheiten, das ExecuTorch als primäres Deployment-Ziel behandelt.
Welche Modelle deckt das Tutorial ab?
Die Dokumentation demonstriert drei Szenarien. Das OPT-125M-Transformer-Modell läuft auf Raspberry Pi 5 über das XNNPACK-CPU-Backend. MobileNetV2 INT8 wird über die EthosUQuantizer- und EthosUCompileSpec-API auf einem Ethos-U-NPU deployed. Der MobileNetV2-+LRN-Fall zeigt, wie die Runtime nicht unterstützte Operatoren behandelt.
Was erhalten Entwickler im Arm-Education-Repository?
Das GitHub-Repository arm-education/executorch_on_arm_labs enthält praxisorientierte Labs für CPU-Inferenz auf Raspberry Pi 5, hardwarebeschleunigte Inferenz mit Ethos-U-NPU sowie Model-Explorer-Adapter (von Arm entwickelt) zur Visualisierung von .pte-Dateien, Backend-Partitionierung, TOSA-Darstellung und VGF-Dateien für das Arm ML SDK Vulkan. Den Lab-Inhalt haben Marcelo Rovai (UNIFEI University, Edge AI Foundation) und akademische Reviewer vom IIIT Bangalore vorbereitet.
Einordnung im Edge-KI-Ökosystem
Die Deployment-Pipeline wandelt ein PyTorch-Modell durch Quantisierung, TOSA-(Tensor-Operator-Set-Architecture-)Darstellung und Vela-Optimierung in ein .pte-Artefakt um. Ein statischer Computation-Graph sorgt für vorhersehbare Ausführung auf ressourcenbeschränkten Systemen. ExecuTorch positioniert das PyTorch-Ökosystem damit als ernsthaften Spieler für Edge-Inferenz, wo bisher TensorFlow Lite Micro und ONNX Runtime dominierten.
Häufig gestellte Fragen
- Welche Modelle können über ExecuTorch auf Arm-Hardware ausgeführt werden?
- Die Dokumentation demonstriert das OPT-125M-Transformer-Modell auf Raspberry Pi 5 (Cortex-A) und quantisierte MobileNetV2-(INT8-)Modelle auf einem Ethos-U-NPU; alle Modelle müssen PyTorch-kompatibel und in das leichtgewichtige .pte-(PyTorch-Export-)Format exportierbar sein.
- Was bietet die XNNPACK-Backend-Delegation?
- Das XNNPACK-Backend nutzt KleidiAI-Mikrokerne und Neon-Architekturmerkmale und liefert signifikante Latenzreduzierung auf einem Cortex-A-CPU; ohne XNNPACK-Delegation kann ExecuTorch höhere Latenz als der PyTorch-Eager-Modus aufweisen, behält aber einen kleineren Runtime-Footprint.
Verwandte Nachrichten
Kedro: Version 1.2.0 bringt @experimental-Dekorator und LangGraph Agentic Starter für GenAI-Pipelines
Stability AI: Stable Audio 3.0 mit Open-Weight-Modellen und 6-Minuten-Generierung
LangChain: Der Agent, der Agenten repariert — wie LangSmith Engine entwickelt wurde