Google:凍結マルチトークン予測でPixelのGemini Nanoが50%以上高速化
Googleは凍結マルチトークン予測——1回のモデルパスで平均約2トークンを生成する技術——を使用してPixel 9および10上でのGemini Nano推論を50%以上高速化しました。インスタンスあたり130MBのメモリ節約を実現し、出力結果に一切の変更はありません。
この記事はAIにより一次情報源から生成されました。
凍結MTPヘッドはGemini Nanoをどのように高速化するか?
マルチトークン予測(MTP)は、標準的な1回の呼び出しで1トークンのアプローチの代わりに、1回のパスで複数のトークンの提案を生成する技術です。Googleは凍結バリアントを適用しました:MTPヘッドはメインモデルの凍結KVキャッシュ(キーと値の一時メモリ)にクロスアテンションを行い、ドラフター用に別途計算しません。結果——1パスあたり平均約2トークン——は元のモデルの出力とビット単位で同一です。
デバイス上でどれだけ速く、どれだけ安価になるか?
Pixel 9上での推論高速化はスタンドアロンドラフターモデル(従来提案の補助ジェネレーターとして機能していた別の小型ネットワーク)と比較して50%以上です。速度に加えて、このアーキテクチャはRAMが限られたモバイルデバイスにとって重要なインスタンスあたり130MBのメモリ節約をもたらします。スマートリプライのような予測可能な構造では、提案されたトークンの受け入れ率が標準アプローチと比較して55%向上しています。
ゼロコピーアーキテクチャとPixelへの適用
Googleはこのアプローチをゼロコピーアーキテクチャと説明しています:MTPヘッドは中間結果をコピーせずにメインモデルとKVキャッシュを共有し、投機的デコーディングの主要なメモリと計算オーバーヘッドの原因を1つ排除します。この技術はPixel 9とPixel 10の2つの機能に既に展開されています:AI Notification Summaries(通知の要約)とProofread(テキストの校正)です。どちらもクラウドへのデータ送信なしにローカルのオンデバイスモデルを使用します。
より広い文脈:妥協のないオンデバイスAI
これまでモバイルデバイスでの推論の高速化には、追加のメモリフットプリントと時に異なる出力を導入する個別のより小さなドラフターモデルが必要でした。Googleのアプローチは、凍結MTPヘッドをゼロからのファインチューニングなしに既存のGemini Nanoに統合でき、精度の損失もないことを示しています——高速で元の動作に忠実なオンデバイスAIへの一歩です。
よくある質問
- マルチトークン予測とは何ですか?標準的な生成とどう違いますか?
- 標準的な言語モデルは1回の呼び出しで1トークンを生成しますが、マルチトークン予測(MTP)は1回のパスで複数のトークンを先行提案する追加ヘッドを使用します。メインモデルがそれらを受け入れるか拒否しますが——結果は同一で推論が高速になります。
- MTPヘッドが凍結されているとはどういう意味ですか?実際にはどういうことですか?
- 凍結(frozen)はMTPヘッドの重みがメインモデルと一緒にトレーニングされるのではなく、一度学習して固定されることを意味します。これによりメインモデルとKVキャッシュを共有でき、再計算なしに高速化とメモリ節約の両方が実現します。