Gemini Nano借助冻结MTP在Pixel上速度提升50%以上

Google通过冻结多令牌预测技术将Pixel 9和10上的Gemini Nano推理速度提升了50%以上——每次前向传播平均生成约2个令牌，每实例节省130MB内存，且输出结果完全不变。

冻结MTP头部如何加速Gemini Nano？

多令牌预测（MTP）是一种让模型在单次前向传播中生成多个令牌预测的技术，而非标准方式每次调用只产生一个令牌。Google应用了冻结变体：MTP头部对主模型的冻结KV缓存（键值对的临时存储）进行交叉注意力，无需为起草者进行专门计算。结果——平均每次前向传播约2个额外令牌——在逐位上与原始模型的输出完全相同。

在设备上速度提升多少，成本降低多少？

与独立起草者模型——此前用作辅助预测生成器的独立小型网络——相比，Pixel 9上的推理加速超过50%。在速度之外，该架构还带来每实例130MB的内存节省，这对于RAM有限的移动设备至关重要。对于智能回复等可预测结构，令牌接受率比标准方法高55%。

零拷贝架构与Pixel上的应用

Google将该方法描述为零拷贝架构：MTP头部与主模型共享KV缓存，无需复制中间结果，从而消除了推测解码中内存和计算开销的主要来源之一。该技术已在Pixel 9和Pixel 10上部署用于两项功能：AI通知摘要和校对。两者都使用本地设备端模型，无需将数据发送到云端。

更广泛的背景：无妥协的设备端AI

以往移动设备上的推理加速通常需要独立的较小起草者模型，这会引入额外的内存占用，有时还会产生不同的输出。Google的方法表明，冻结MTP头部可以集成到现有的Gemini Nano中，无需从头微调，也不损失准确性——朝着既快速又忠实于原始模型行为的设备端AI迈进了一步。

常见问题

什么是多令牌预测，它与标准生成有何不同？

标准语言模型每次调用生成一个令牌；多令牌预测（MTP）使用额外的头部在单次前向传播中预测多个令牌，主模型接受或拒绝这些预测——结果完全相同，但推理速度更快。

为什么MTP头部被冻结，这在实践中意味着什么？

冻结意味着MTP头部的权重不与主模型一起训练，而是一次性学习后保持固定；这使其能够与主模型共享KV缓存而无需重新计算，从而带来速度提升和内存节省。

Google：冻结多令牌预测使Pixel上的Gemini Nano推理速度提升50%以上

冻结MTP头部如何加速Gemini Nano？

在设备上速度提升多少，成本降低多少？

零拷贝架构与Pixel上的应用

更广泛的背景：无妥协的设备端AI

常见问题

来源

相关新闻