🟡 📦 オープンソース 公開日: · 2 分で読めます ·

PyTorch: ExecuTorch MLX DelegateがApple Silicon GPUでモデル推論を3〜6倍高速化

Editorial illustration: PyTorchチームがExecuTorch MLX Delegateを公開――Apple MLXフレームワークを活用してApple Silicon GPUでの推論を3〜6倍高速化

PyTorchチームが実験的なExecuTorch MLX Delegateを公開しました。Apple MLXフレームワークとMetal GPUカーネルを活用して、Apple Siliconチップ上で3〜6倍のスループット向上を実現するバックエンドです。Llama 3.2・Qwen 3・Phi-4 mini・Whisper・Voxtralのリアルタイムストリーミング文字起こしに対応します。

🤖

この記事はAIにより一次情報源から生成されました。

PyTorchチームが実験的なExecuTorch MLX Delegateを公開しました。これはApple MLXフレームワークと最適化されたMetal GPUカーネルを使用してmacOS上のPyTorchモデルを高速化する新しいバックエンドです。その結果、生成AIワークロードはmacOS上の既存のExecuTorchデリゲートと比較して3〜6倍のスループット向上を実現します。

ExecuTorch MLX Delegateの動作原理

ExecuTorchはPyTorchのオンデバイス推論ランタイムで、torch.exportでモデルをエクスポートし、実行準備が整った.pteフォーマットに降格します。MLX Delegateは新しいステップを追加します。MLXPartitionerがエクスポートされた計算グラフを分析し、互換性のあるサブグラフを直接Apple MLXに委譲し、Apple Silicon GPUで実行します。

ワークフローは3ステップです:

  1. torch.exportでモデルをエクスポート
  2. MLXPartitionerを使用してto_edge_transform_and_lowerで降格
  3. ExecuTorchランタイムで.pteファイルを実行

このデリゲートは量子化matmul・マルチヘッドアテンション・ロータリー位置エンコーディング・Mixture-of-Expertsルーティングを含む約90のATenオペレーションをサポートします。

対応モデルは?

VoxtralはリアルタイムG文字起こしに本当に対応しているのか?

はい――MLX Delegateは**Mistral Voxtral Realtime(4B)**をサポートしており、インターネット接続なしにMacコンピューター上で直接、ライブマイク入力を使用したリアルタイムストリーミング文字起こしが可能です。

対応モデルの完全なリスト:

  • LLM: Llama 3.2(1B)、Qwen 3(0.6B・1.7B・4B)、Phi-4 mini(3.8B)、Gemma 3(1B・4B)
  • MoEモデル: 256エキスパートとtop-8ルーティングを持つQwen 3.5 35B-A3B
  • 音声テキスト変換: OpenAI Whisper(tinyからlarge-v3-turbo)、NVIDIA Parakeet TDT(0.6B)、Mistral Voxtral(3B)

量子化はBF16・FP16・FP32およびTorchAOによる2/4/8ビットアフィン量子化、ならびにNVFP4に対応しています。

制限事項とステータス

このデリゲートは実験的と表記されており、APIと対応機能は変更される可能性があります。高速化はMetal GPUサポートを持つApple Silicon Mac(M1/M2/M3/M4)のみで利用可能です。Intel Macはサポートされていません。他のすべてのプラットフォーム(Android・Linux・Windows)は既存のExecuTorchデリゲートを引き続き使用します。

ソースコードはGitHubのPyTorch ExecuTorchリポジトリで公開されています。

よくある質問

ExecuTorchとは何ですか?
ExecuTorchはPyTorchのオンデバイス推論ランタイムで、クラウドなしに直接デバイス上でAIモデルを実行します。torch.exportを使用してモデルをエクスポートし、統一APIを通じてさまざまなハードウェアバックエンドで実行します。
Apple MLXとは何ですか?
Apple MLXはApple Silicon(M1/M2/M3/M4)向けに最適化されたオープンソースの機械学習フレームワークです。統合メモリモデルとAppleのMetal GPUカーネルを使用して、Macコンピューターで最大のパフォーマンスを提供します。
ExecuTorchの文脈で「delegate」とはどういう意味ですか?
Delegateは、ExecuTorchが計算の一部を特定のハードウェアまたはフレームワーク(この場合はApple MLX)に転送(委譲)するために使用するバックエンドモジュールです。MLXPartitionerはMLXで加速できるサブグラフを自動的に識別し、Apple Silicon GPUに委譲します。