🟡 🤖 模型 发布于: · 1 分钟阅读 ·

Google:冻结多令牌预测使Pixel上的Gemini Nano推理速度提升50%以上

编辑插图:智能手机芯片示意图,显示Pixel设备上的并行令牌预测路径

Google通过冻结多令牌预测技术将Pixel 9和10上的Gemini Nano推理速度提升了50%以上——每次前向传播平均生成约2个令牌,每实例节省130MB内存,且输出结果完全不变。

🤖

本文由人工智能基于一手来源生成。

冻结MTP头部如何加速Gemini Nano?

多令牌预测(MTP)是一种让模型在单次前向传播中生成多个令牌预测的技术,而非标准方式每次调用只产生一个令牌。Google应用了冻结变体:MTP头部对主模型的冻结KV缓存(键值对的临时存储)进行交叉注意力,无需为起草者进行专门计算。结果——平均每次前向传播约2个额外令牌——在逐位上与原始模型的输出完全相同。

在设备上速度提升多少,成本降低多少?

独立起草者模型——此前用作辅助预测生成器的独立小型网络——相比,Pixel 9上的推理加速超过50%。在速度之外,该架构还带来每实例130MB的内存节省,这对于RAM有限的移动设备至关重要。对于智能回复等可预测结构,令牌接受率比标准方法高55%

零拷贝架构与Pixel上的应用

Google将该方法描述为零拷贝架构:MTP头部与主模型共享KV缓存,无需复制中间结果,从而消除了推测解码中内存和计算开销的主要来源之一。该技术已在Pixel 9和Pixel 10上部署用于两项功能:AI通知摘要校对。两者都使用本地设备端模型,无需将数据发送到云端。

更广泛的背景:无妥协的设备端AI

以往移动设备上的推理加速通常需要独立的较小起草者模型,这会引入额外的内存占用,有时还会产生不同的输出。Google的方法表明,冻结MTP头部可以集成到现有的Gemini Nano中,无需从头微调,也不损失准确性——朝着既快速又忠实于原始模型行为的设备端AI迈进了一步。

常见问题

什么是多令牌预测,它与标准生成有何不同?
标准语言模型每次调用生成一个令牌;多令牌预测(MTP)使用额外的头部在单次前向传播中预测多个令牌,主模型接受或拒绝这些预测——结果完全相同,但推理速度更快。
为什么MTP头部被冻结,这在实践中意味着什么?
冻结意味着MTP头部的权重不与主模型一起训练,而是一次性学习后保持固定;这使其能够与主模型共享KV缓存而无需重新计算,从而带来速度提升和内存节省。