🟢 🤖 模型 发布于: · 1 分钟阅读 ·

arXiv:2606.20543: 空间投机解码将图像生成速度提升13.3倍

arXiv:2606.20543 ↗

编辑插图:空间投机解码将图像生成速度提升13.3倍

SSD(空间投机解码)是一种新方法,可在自回归图像生成过程中同时预测像素的水平和垂直邻居,在DPG-Bench和GenEval基准测试中实现最高13.3倍的加速,且不损失视觉质量。

🤖

本文由人工智能基于一手来源生成。

自回归图像生成获得二维超能力

2026年6月19日,作者项世龙、张子睿、余立君和毛承志发表了论文arXiv:2606.20543,提出了空间投机解码(SSD)——一种颠覆自回归视觉模型基本假设的方法。

经典自回归模型逐个令牌地生成图像,按扁平的一维序列排列。SSD打破了这一方式:不再一次生成一个令牌,而是同时预测两个空间相邻的令牌——水平邻居和正下方的令牌。这充分利用了图像的二维结构,减少了总解码步骤数量。

13.3倍加速,视觉质量不变

DPG-BenchGenEval基准测试上的评估证实了最高13.3倍的自回归图像生成加速。关键在于:视觉质量保持高水准——SSD不以牺牲图像保真度换取速度,而这恰恰是以往激进解码优化方法的典型代价。

解决内存墙——高分辨率的瓶颈

SSD直接针对内存墙问题:在生成高分辨率图像时,由于令牌数量呈指数级增长,经典串行解码成为严重的性能瓶颈。空间投机方法从结构层面缓解了这一问题,而不仅仅依赖工程技巧。

与现有方法的比较

NLP领域中的标准投机解码器通过在单步中提议多个令牌来加速序列语言模型,而SSD专门利用图像的二维拓扑结构——这是语言投机解码器所不具备的维度。该研究与压缩方法(量化、剪枝)不同,它不修改模型参数,只改变推理策略。

论文于2026年6月18日提交,6月19日发布。

常见问题

什么是空间投机解码,它与经典自回归解码有何不同?
SSD利用图像的二维空间结构,同时预测两个令牌——水平邻居和垂直邻居,而不是将图像视为扁平的一维令牌序列。这消除了串行瓶颈,大幅减少了解码步骤数量。
SSD在哪些基准测试上进行了评估,结果如何?
该方法在DPG-Bench和GenEval基准测试上进行了测试,在保持高视觉质量的同时,自回归图像生成速度提升最高达13.3倍。
SSD解决了高分辨率图像生成中的什么问题?
SSD直接针对「内存墙」瓶颈问题——在高分辨率自回归图像生成中,由于令牌数量呈指数级增长,经典串行解码方法会成为严重的性能瓶颈。