PyTorch: ExecuTorch MLX Delegate在Apple Silicon GPU上实现3–6倍模型推理加速
PyTorch团队发布了实验性ExecuTorch MLX Delegate——一个利用Apple MLX框架和Metal GPU内核在Apple Silicon芯片上实现3至6倍吞吐量提升的后端。支持Llama 3.2、Qwen 3、Phi-4 mini、Whisper和Voxtral实时流式转录。
本文由人工智能基于一手来源生成。
PyTorch团队发布了实验性ExecuTorch MLX Delegate——一个新后端,通过使用Apple MLX框架和优化的Metal GPU内核,在macOS上加速PyTorch模型。结果是生成式AI工作负载与macOS上现有ExecuTorch代理相比实现了3至6倍的吞吐量提升。
ExecuTorch MLX Delegate如何工作?
ExecuTorch是PyTorch的设备端推理运行时,通过torch.export导出模型,然后将其降格为准备运行的.pte格式。MLX Delegate添加了一个新步骤:MLXPartitioner分析导出的计算图,并将兼容的子图委托给Apple MLX,再通过Apple Silicon GPU执行。
工作流程分三步:
- 使用
torch.export导出模型 - 使用
MLXPartitioner通过to_edge_transform_and_lower降格 - 通过ExecuTorch运行时运行
.pte文件
该代理支持约90个ATen操作,包括量化矩阵乘法、多头注意力、旋转位置编码和专家混合路由。
支持哪些模型?
Voxtral是否真的支持实时转录?
是的——MLX Delegate支持Mistral Voxtral Realtime(4B),可使用实时麦克风输入直接在Mac计算机上进行实时流式转录,无需联网。
完整支持模型列表:
- LLM: Llama 3.2(1B)、Qwen 3(0.6B、1.7B、4B)、Phi-4 mini(3.8B)、Gemma 3(1B、4B)
- MoE模型: Qwen 3.5 35B-A3B,含256个专家和top-8路由
- 语音转文字: OpenAI Whisper(tiny到large-v3-turbo)、NVIDIA Parakeet TDT(0.6B)、Mistral Voxtral(3B)
量化支持BF16、FP16、FP32和通过TorchAO的2/4/8位仿射量化,以及NVFP4。
限制与状态
该代理标记为实验性——API和支持功能可能会发生变化。加速仅适用于具有Metal GPU支持的Apple Silicon Mac(M1/M2/M3/M4);Intel Mac不受支持。所有其他平台(Android、Linux、Windows)继续使用现有的ExecuTorch代理。
源代码可在GitHub的PyTorch ExecuTorch仓库中获取。
常见问题
- 什么是ExecuTorch?
- ExecuTorch是PyTorch的设备端推理运行时——直接在设备上运行AI模型,无需云端。通过torch.export导出模型,并通过统一API在不同硬件后端上运行。
- 什么是Apple MLX?
- Apple MLX是为Apple Silicon(M1/M2/M3/M4)优化的开源机器学习框架。它使用统一内存模型和Apple的Metal GPU内核,在Mac计算机上实现最大性能。
- 在ExecuTorch上下文中「delegate」是什么意思?
- Delegate是ExecuTorch用于将部分计算重定向(委托)到特定硬件或框架的后端模块——在本例中是Apple MLX。MLXPartitioner自动识别可通过MLX加速的子图,并将其委托给Apple Silicon GPU。