PyTorch: Version 2.12 bringt geräteagnostisches torch.accelerator.Graph, MX-Quantisierung und 100× schnelleres linalg.eigh
PyTorch 2.12 ist die neue Produktionsversion des PyTorch-Frameworks, veröffentlicht am 13. Mai 2026, mit 2.926 Commits und 457 Beitragenden. Hauptfunktionen: geräteagnostische torch.accelerator.Graph-API für CUDA, XPU und Out-of-Tree-Backends, torch.export-Unterstützung für Microscaling-MX-Quantisierung (MXFP4/6/8), linalg.eigh bis zu 100× schneller auf CUDA über cuSolver sowie torch.cond innerhalb von CUDA Graphs. TorchScript wurde formal entfernt.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
Die PyTorch Foundation veröffentlichte am 13. Mai 2026 Version 2.12 des Frameworks — ein Release mit 2.926 Commits und 457 Beitragenden. Die Version bringt den Wechsel zu einer Multi-Vendor-Beschleuniger-API, Unterstützung für aggressive Quantisierung und erhebliche Beschleunigungen bei linearen Algebraoperationen sowie die formale Entfernung von TorchScript.
Wie verändert torch.accelerator.Graph die Graph-Erfassung?
torch.accelerator.Graph ist die neue einheitliche API für Graph-Capture und -Replay, die über CUDA, XPU und Out-of-Tree-Backends hinweg funktioniert. Sie ersetzt gerätespezifische Implementierungen wie torch.xpu.XPUGraph. Backends registrieren sich über ein leichtgewichtiges GraphImplInterface; c10::Stream und torch.Stream erhalten eine neue is_capturing()-Methode für backend-agnostische Stream-Prüfung. Die Implementierung wurde von Guangye Yu (Intel) über PRs #171269 und #171285 beigetragen.
Was ermöglicht die MX-Quantisierung in torch.export?
torch.export.save und torch.export.load unterstützen nun den float8_e8m0fnu-Datentyp. Die Änderung ermöglicht den vollständigen Export aggressiv komprimierter Modelle in den Formaten MXFP4, MXFP6 und MXFP8 — entscheidend für den Einsatz von LLMs in kostenoptimierten und Edge-Umgebungen. Der Beitrag stammt von Chizkiyahu Raful (ARM) über PR #176270.
Welche Geschwindigkeitssteigerungen bringt 2.12?
linalg.eigh wurde vom Legacy-MAGMA-Backend auf cuSolver migriert und verwendet syevj_batched bedingungslos für Batch-Operationen. Das PyTorch-Team gibt bis zu 100× Beschleunigung auf CUDA in typischen ML-Workloads an — Operationen, die zuvor Minuten dauerten, sind nun in Sekunden abgeschlossen. Eine weitere wichtige Optimierung: torch.cond-datenabhängiger Kontrollfluss kann nun über CUDA 12.4 Conditional-IF-Knoten innerhalb von CUDA Graphs erfasst werden, wodurch der bisherige Fallback auf CUDA-Graph-Trees entfällt. Der fusionierte Adagrad-Optimierer ergänzt Adam, AdamW und SGD mit fused=True-Unterstützung.
Was bedeutet die Entfernung von TorchScript?
TorchScript war seit 2.10 als veraltet markiert und wurde in 2.12 formal entfernt. Die empfohlene Alternative ist torch.export für die Modellserialisierung und Executorch für eingebettete Laufzeitumgebungen. Das CUDA-12.8-Wheel wird nicht mehr in der Standard-Release-Matrix veröffentlicht — PyTorch empfiehlt CUDA 12.6 für ältere Architekturen (Pascal, Volta) und CUDA 13.0+ für Blackwell.
Eine Live-Q&A-Veranstaltung mit den Podiumsteilnehmern Joe Spisak, Andrey Talman und Alban Desmaison ist für Mittwoch, den 20. Mai 2026 um 10:00 Uhr PST geplant.
Häufig gestellte Fragen
- Was ist torch.accelerator.Graph?
- Eine einheitliche API für Graph-Capture und -Replay über CUDA, XPU und Out-of-Tree-Backends, die gerätespezifische Implementierungen wie torch.xpu.XPUGraph ersetzt. Backends registrieren sich über ein leichtgewichtiges GraphImplInterface; c10::Stream erhält eine is_capturing()-Methode für backend-agnostische Stream-Prüfung.
- Was bedeutet die Entfernung von TorchScript?
- TorchScript war seit Version 2.10 als veraltet markiert und wurde in 2.12 formal entfernt. Die empfohlene Alternative ist torch.export für die Modellserialisierung und Executorch für eingebettete Laufzeitumgebungen — bestehender Produktionscode muss vor einem Upgrade auf 2.12+ migriert werden.
Verwandte Nachrichten
Kedro: Version 1.2.0 bringt @experimental-Dekorator und LangGraph Agentic Starter für GenAI-Pipelines
Stability AI: Stable Audio 3.0 mit Open-Weight-Modellen und 6-Minuten-Generierung
LangChain: Der Agent, der Agenten repariert — wie LangSmith Engine entwickelt wurde