PyTorch: ExecuTorch MLX DelegateがApple Silicon GPUでモデル推論を3〜6倍高速化
PyTorchチームが実験的なExecuTorch MLX Delegateを公開しました。Apple MLXフレームワークとMetal GPUカーネルを活用して、Apple Siliconチップ上で3〜6倍のスループット向上を実現するバックエンドです。Llama 3.2・Qwen 3・Phi-4 mini・Whisper・Voxtralのリアルタイムストリーミング文字起こしに対応します。
この記事はAIにより一次情報源から生成されました。
PyTorchチームが実験的なExecuTorch MLX Delegateを公開しました。これはApple MLXフレームワークと最適化されたMetal GPUカーネルを使用してmacOS上のPyTorchモデルを高速化する新しいバックエンドです。その結果、生成AIワークロードはmacOS上の既存のExecuTorchデリゲートと比較して3〜6倍のスループット向上を実現します。
ExecuTorch MLX Delegateの動作原理
ExecuTorchはPyTorchのオンデバイス推論ランタイムで、torch.exportでモデルをエクスポートし、実行準備が整った.pteフォーマットに降格します。MLX Delegateは新しいステップを追加します。MLXPartitionerがエクスポートされた計算グラフを分析し、互換性のあるサブグラフを直接Apple MLXに委譲し、Apple Silicon GPUで実行します。
ワークフローは3ステップです:
torch.exportでモデルをエクスポートMLXPartitionerを使用してto_edge_transform_and_lowerで降格- ExecuTorchランタイムで
.pteファイルを実行
このデリゲートは量子化matmul・マルチヘッドアテンション・ロータリー位置エンコーディング・Mixture-of-Expertsルーティングを含む約90のATenオペレーションをサポートします。
対応モデルは?
VoxtralはリアルタイムG文字起こしに本当に対応しているのか?
はい――MLX Delegateは**Mistral Voxtral Realtime(4B)**をサポートしており、インターネット接続なしにMacコンピューター上で直接、ライブマイク入力を使用したリアルタイムストリーミング文字起こしが可能です。
対応モデルの完全なリスト:
- LLM: Llama 3.2(1B)、Qwen 3(0.6B・1.7B・4B)、Phi-4 mini(3.8B)、Gemma 3(1B・4B)
- MoEモデル: 256エキスパートとtop-8ルーティングを持つQwen 3.5 35B-A3B
- 音声テキスト変換: OpenAI Whisper(tinyからlarge-v3-turbo)、NVIDIA Parakeet TDT(0.6B)、Mistral Voxtral(3B)
量子化はBF16・FP16・FP32およびTorchAOによる2/4/8ビットアフィン量子化、ならびにNVFP4に対応しています。
制限事項とステータス
このデリゲートは実験的と表記されており、APIと対応機能は変更される可能性があります。高速化はMetal GPUサポートを持つApple Silicon Mac(M1/M2/M3/M4)のみで利用可能です。Intel Macはサポートされていません。他のすべてのプラットフォーム(Android・Linux・Windows)は既存のExecuTorchデリゲートを引き続き使用します。
ソースコードはGitHubのPyTorch ExecuTorchリポジトリで公開されています。
よくある質問
- ExecuTorchとは何ですか?
- ExecuTorchはPyTorchのオンデバイス推論ランタイムで、クラウドなしに直接デバイス上でAIモデルを実行します。torch.exportを使用してモデルをエクスポートし、統一APIを通じてさまざまなハードウェアバックエンドで実行します。
- Apple MLXとは何ですか?
- Apple MLXはApple Silicon(M1/M2/M3/M4)向けに最適化されたオープンソースの機械学習フレームワークです。統合メモリモデルとAppleのMetal GPUカーネルを使用して、Macコンピューターで最大のパフォーマンスを提供します。
- ExecuTorchの文脈で「delegate」とはどういう意味ですか?
- Delegateは、ExecuTorchが計算の一部を特定のハードウェアまたはフレームワーク(この場合はApple MLX)に転送(委譲)するために使用するバックエンドモジュールです。MLXPartitionerはMLXで加速できるサブグラフを自動的に識別し、Apple Silicon GPUに委譲します。