PyTorch: ExecuTorch MLX Delegate donosi 3–6× brže izvođenje modela na Apple Silicon GPU-ima
PyTorch tim objavio je eksperimentalni ExecuTorch MLX Delegate — backend koji iskorištava Apple MLX framework i Metal GPU kernele za 3 do 6 puta veći throughput na Apple Silicon čipovima. Podržava Llama 3.2, Qwen 3, Phi-4 mini, Whisper i Voxtral real-time streaming transkribiranje.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
PyTorch tim objavio je eksperimentalni ExecuTorch MLX Delegate — novi backend koji PyTorch modele na macOS-u ubrzava korištenjem Apple MLX frameworka i optimiziranih Metal GPU kernela. Rezultat su generativni AI workloadi s 3 do 6 puta većim throughputom u usporedbi s postojećim ExecuTorch delegatima na macOS-u.
Kako ExecuTorch MLX Delegate radi?
ExecuTorch je PyTorchev runtime za on-device inferenciju koji model izvozi putem torch.export, a zatim ga snižava u .pte format spreman za pokretanje. MLX Delegate dodaje novi korak: MLXPartitioner analizira eksportirani graf i delegira kompatibilne podgrafove direktno na Apple MLX, koji ih izvodi putem Apple Silicon GPU-a.
Radni tok je trokorački:
- Izvoz modela s
torch.export - Snižavanje s
to_edge_transform_and_lowerkoristećiMLXPartitioner - Pokretanje
.ptedatoteke kroz ExecuTorch runtime
Delegat podržava oko 90 ATen operacija, uključujući kvantizirani matmul, multi-head attention, rotary position embeddings i Mixture-of-Experts usmjeravanje.
Koji modeli su podržani?
Je li Voxtral zaista spreman za live transkribiranje?
Da — MLX Delegate podržava Mistral Voxtral Realtime (4B) s live mikrofonskim ulazom za real-time streaming transkribiranje izravno na Mac računalu, bez interneta.
Potpuni popis podržanih modela:
- LLM-ovi: Llama 3.2 (1B), Qwen 3 (0.6B, 1.7B, 4B), Phi-4 mini (3.8B), Gemma 3 (1B, 4B)
- MoE modeli: Qwen 3.5 35B-A3B s 256 eksperata i top-8 usmjeravanjem
- Speech-to-text: OpenAI Whisper (tiny do large-v3-turbo), NVIDIA Parakeet TDT (0.6B), Mistral Voxtral (3B)
Kvantizacija je dostupna u BF16, FP16, FP32 i 2/4/8-bitnoj afinijskoj kvantizaciji putem TorchAO, kao i NVFP4.
Ograničenja i status
Delegat je označen kao eksperimentalan — API-ji i podržane značajke mogu se mijenjati. Ubrzanje je dostupno isključivo na Apple Silicon Macovima (M1/M2/M3/M4) koji imaju Metal GPU podršku; Intel Mac računala nisu podržana. Sve ostale platforme (Android, Linux, Windows) nastavljaju koristiti postojeće ExecuTorch delegate.
Izvorni kod dostupan je u PyTorch ExecuTorch repozitoriju na GitHubu.
Česta pitanja
- Što je ExecuTorch?
- ExecuTorch je PyTorchev runtime za on-device inferenciju — izvođenje AI modela izravno na uređaju, bez oblaka. Omogućuje izvoz modela putem torch.export i pokretanje na različitim hardverskim backendima kroz jedinstveni API.
- Što je Apple MLX?
- Apple MLX je open-source framework za strojno učenje optimiziran za Apple Silicon (M1/M2/M3/M4). Koristi unificirani memorijski model i Apple-ove Metal GPU kernele za maksimalne performanse na Mac računalima.
- Što znači 'delegate' u kontekstu ExecuTorcha?
- Delegate je backend modul koji ExecuTorch koristi za preusmjeravanje (delegiranje) dijela računanja na specifičan hardver ili framework — u ovom slučaju Apple MLX. MLXPartitioner automatski identificira podgrafove koji mogu biti ubrzani putem MLX-a i delegira ih na Apple Silicon GPU.