PyTorch ExecuTorch MLX: GPU推理3–6倍加速

PyTorch团队发布了实验性ExecuTorch MLX Delegate——一个利用Apple MLX框架和Metal GPU内核在Apple Silicon芯片上实现3至6倍吞吐量提升的后端。支持Llama 3.2、Qwen 3、Phi-4 mini、Whisper和Voxtral实时流式转录。

PyTorch团队发布了实验性ExecuTorch MLX Delegate——一个新后端，通过使用Apple MLX框架和优化的Metal GPU内核，在macOS上加速PyTorch模型。结果是生成式AI工作负载与macOS上现有ExecuTorch代理相比实现了3至6倍的吞吐量提升。

ExecuTorch MLX Delegate如何工作？

ExecuTorch是PyTorch的设备端推理运行时，通过torch.export导出模型，然后将其降格为准备运行的.pte格式。MLX Delegate添加了一个新步骤：MLXPartitioner分析导出的计算图，并将兼容的子图委托给Apple MLX，再通过Apple Silicon GPU执行。

工作流程分三步：

使用torch.export导出模型
使用MLXPartitioner通过to_edge_transform_and_lower降格
通过ExecuTorch运行时运行.pte文件

该代理支持约90个ATen操作，包括量化矩阵乘法、多头注意力、旋转位置编码和专家混合路由。

支持哪些模型？

Voxtral是否真的支持实时转录？

是的——MLX Delegate支持Mistral Voxtral Realtime（4B），可使用实时麦克风输入直接在Mac计算机上进行实时流式转录，无需联网。

完整支持模型列表：

LLM： Llama 3.2（1B）、Qwen 3（0.6B、1.7B、4B）、Phi-4 mini（3.8B）、Gemma 3（1B、4B）
MoE模型： Qwen 3.5 35B-A3B，含256个专家和top-8路由
语音转文字： OpenAI Whisper（tiny到large-v3-turbo）、NVIDIA Parakeet TDT（0.6B）、Mistral Voxtral（3B）

量化支持BF16、FP16、FP32和通过TorchAO的2/4/8位仿射量化，以及NVFP4。

限制与状态

该代理标记为实验性——API和支持功能可能会发生变化。加速仅适用于具有Metal GPU支持的Apple Silicon Mac（M1/M2/M3/M4）；Intel Mac不受支持。所有其他平台（Android、Linux、Windows）继续使用现有的ExecuTorch代理。

源代码可在GitHub的PyTorch ExecuTorch仓库中获取。

常见问题

什么是ExecuTorch？

ExecuTorch是PyTorch的设备端推理运行时——直接在设备上运行AI模型，无需云端。通过torch.export导出模型，并通过统一API在不同硬件后端上运行。

什么是Apple MLX？

Apple MLX是为Apple Silicon（M1/M2/M3/M4）优化的开源机器学习框架。它使用统一内存模型和Apple的Metal GPU内核，在Mac计算机上实现最大性能。

在ExecuTorch上下文中「delegate」是什么意思？

Delegate是ExecuTorch用于将部分计算重定向（委托）到特定硬件或框架的后端模块——在本例中是Apple MLX。MLXPartitioner自动识别可通过MLX加速的子图，并将其委托给Apple Silicon GPU。

PyTorch: ExecuTorch MLX Delegate在Apple Silicon GPU上实现3–6倍模型推理加速

ExecuTorch MLX Delegate如何工作？

支持哪些模型？

Voxtral是否真的支持实时转录？

限制与状态

常见问题

来源

相关新闻