PyTorch ExecuTorch MLX: GPU 3〜6倍高速化

PyTorchチームが実験的なExecuTorch MLX Delegateを公開しました。Apple MLXフレームワークとMetal GPUカーネルを活用して、Apple Siliconチップ上で3〜6倍のスループット向上を実現するバックエンドです。Llama 3.2・Qwen 3・Phi-4 mini・Whisper・Voxtralのリアルタイムストリーミング文字起こしに対応します。

PyTorchチームが実験的なExecuTorch MLX Delegateを公開しました。これはApple MLXフレームワークと最適化されたMetal GPUカーネルを使用してmacOS上のPyTorchモデルを高速化する新しいバックエンドです。その結果、生成AIワークロードはmacOS上の既存のExecuTorchデリゲートと比較して3〜6倍のスループット向上を実現します。

ExecuTorch MLX Delegateの動作原理

ExecuTorchはPyTorchのオンデバイス推論ランタイムで、torch.exportでモデルをエクスポートし、実行準備が整った.pteフォーマットに降格します。MLX Delegateは新しいステップを追加します。MLXPartitionerがエクスポートされた計算グラフを分析し、互換性のあるサブグラフを直接Apple MLXに委譲し、Apple Silicon GPUで実行します。

ワークフローは3ステップです：

torch.exportでモデルをエクスポート
MLXPartitionerを使用してto_edge_transform_and_lowerで降格
ExecuTorchランタイムで.pteファイルを実行

このデリゲートは量子化matmul・マルチヘッドアテンション・ロータリー位置エンコーディング・Mixture-of-Expertsルーティングを含む約90のATenオペレーションをサポートします。

対応モデルは？

VoxtralはリアルタイムG文字起こしに本当に対応しているのか？

はい――MLX Delegateは**Mistral Voxtral Realtime（4B）**をサポートしており、インターネット接続なしにMacコンピューター上で直接、ライブマイク入力を使用したリアルタイムストリーミング文字起こしが可能です。

対応モデルの完全なリスト：

LLM： Llama 3.2（1B）、Qwen 3（0.6B・1.7B・4B）、Phi-4 mini（3.8B）、Gemma 3（1B・4B）
MoEモデル： 256エキスパートとtop-8ルーティングを持つQwen 3.5 35B-A3B
音声テキスト変換： OpenAI Whisper（tinyからlarge-v3-turbo）、NVIDIA Parakeet TDT（0.6B）、Mistral Voxtral（3B）

量子化はBF16・FP16・FP32およびTorchAOによる2/4/8ビットアフィン量子化、ならびにNVFP4に対応しています。

制限事項とステータス

このデリゲートは実験的と表記されており、APIと対応機能は変更される可能性があります。高速化はMetal GPUサポートを持つApple Silicon Mac（M1/M2/M3/M4）のみで利用可能です。Intel Macはサポートされていません。他のすべてのプラットフォーム（Android・Linux・Windows）は既存のExecuTorchデリゲートを引き続き使用します。

ソースコードはGitHubのPyTorch ExecuTorchリポジトリで公開されています。

よくある質問

ExecuTorchとは何ですか？

ExecuTorchはPyTorchのオンデバイス推論ランタイムで、クラウドなしに直接デバイス上でAIモデルを実行します。torch.exportを使用してモデルをエクスポートし、統一APIを通じてさまざまなハードウェアバックエンドで実行します。

Apple MLXとは何ですか？

Apple MLXはApple Silicon（M1/M2/M3/M4）向けに最適化されたオープンソースの機械学習フレームワークです。統合メモリモデルとAppleのMetal GPUカーネルを使用して、Macコンピューターで最大のパフォーマンスを提供します。

ExecuTorchの文脈で「delegate」とはどういう意味ですか？

Delegateは、ExecuTorchが計算の一部を特定のハードウェアまたはフレームワーク（この場合はApple MLX）に転送（委譲）するために使用するバックエンドモジュールです。MLXPartitionerはMLXで加速できるサブグラフを自動的に識別し、Apple Silicon GPUに委譲します。

PyTorch: ExecuTorch MLX DelegateがApple Silicon GPUでモデル推論を3〜6倍高速化

ExecuTorch MLX Delegateの動作原理

対応モデルは？

VoxtralはリアルタイムG文字起こしに本当に対応しているのか？

制限事項とステータス

よくある質問

出典

関連ニュース