PyTorch ExecuTorch MLX: 3–6× brže na Apple Silicon

PyTorch tim objavio je eksperimentalni ExecuTorch MLX Delegate — backend koji iskorištava Apple MLX framework i Metal GPU kernele za 3 do 6 puta veći throughput na Apple Silicon čipovima. Podržava Llama 3.2, Qwen 3, Phi-4 mini, Whisper i Voxtral real-time streaming transkribiranje.

PyTorch tim objavio je eksperimentalni ExecuTorch MLX Delegate — novi backend koji PyTorch modele na macOS-u ubrzava korištenjem Apple MLX frameworka i optimiziranih Metal GPU kernela. Rezultat su generativni AI workloadi s 3 do 6 puta većim throughputom u usporedbi s postojećim ExecuTorch delegatima na macOS-u.

Kako ExecuTorch MLX Delegate radi?

ExecuTorch je PyTorchev runtime za on-device inferenciju koji model izvozi putem torch.export, a zatim ga snižava u .pte format spreman za pokretanje. MLX Delegate dodaje novi korak: MLXPartitioner analizira eksportirani graf i delegira kompatibilne podgrafove direktno na Apple MLX, koji ih izvodi putem Apple Silicon GPU-a.

Radni tok je trokorački:

Izvoz modela s torch.export
Snižavanje s to_edge_transform_and_lower koristeći MLXPartitioner
Pokretanje .pte datoteke kroz ExecuTorch runtime

Delegat podržava oko 90 ATen operacija, uključujući kvantizirani matmul, multi-head attention, rotary position embeddings i Mixture-of-Experts usmjeravanje.

Koji modeli su podržani?

Je li Voxtral zaista spreman za live transkribiranje?

Da — MLX Delegate podržava Mistral Voxtral Realtime (4B) s live mikrofonskim ulazom za real-time streaming transkribiranje izravno na Mac računalu, bez interneta.

Potpuni popis podržanih modela:

LLM-ovi: Llama 3.2 (1B), Qwen 3 (0.6B, 1.7B, 4B), Phi-4 mini (3.8B), Gemma 3 (1B, 4B)
MoE modeli: Qwen 3.5 35B-A3B s 256 eksperata i top-8 usmjeravanjem
Speech-to-text: OpenAI Whisper (tiny do large-v3-turbo), NVIDIA Parakeet TDT (0.6B), Mistral Voxtral (3B)

Kvantizacija je dostupna u BF16, FP16, FP32 i 2/4/8-bitnoj afinijskoj kvantizaciji putem TorchAO, kao i NVFP4.

Ograničenja i status

Delegat je označen kao eksperimentalan — API-ji i podržane značajke mogu se mijenjati. Ubrzanje je dostupno isključivo na Apple Silicon Macovima (M1/M2/M3/M4) koji imaju Metal GPU podršku; Intel Mac računala nisu podržana. Sve ostale platforme (Android, Linux, Windows) nastavljaju koristiti postojeće ExecuTorch delegate.

Izvorni kod dostupan je u PyTorch ExecuTorch repozitoriju na GitHubu.

Česta pitanja

Što je ExecuTorch?

ExecuTorch je PyTorchev runtime za on-device inferenciju — izvođenje AI modela izravno na uređaju, bez oblaka. Omogućuje izvoz modela putem torch.export i pokretanje na različitim hardverskim backendima kroz jedinstveni API.

Što je Apple MLX?

Apple MLX je open-source framework za strojno učenje optimiziran za Apple Silicon (M1/M2/M3/M4). Koristi unificirani memorijski model i Apple-ove Metal GPU kernele za maksimalne performanse na Mac računalima.

Što znači 'delegate' u kontekstu ExecuTorcha?

Delegate je backend modul koji ExecuTorch koristi za preusmjeravanje (delegiranje) dijela računanja na specifičan hardver ili framework — u ovom slučaju Apple MLX. MLXPartitioner automatski identificira podgrafove koji mogu biti ubrzani putem MLX-a i delegira ih na Apple Silicon GPU.

PyTorch: ExecuTorch MLX Delegate donosi 3–6× brže izvođenje modela na Apple Silicon GPU-ima

Kako ExecuTorch MLX Delegate radi?

Koji modeli su podržani?

Je li Voxtral zaista spreman za live transkribiranje?

Ograničenja i status

Česta pitanja

Izvori

Povezane vijesti