SSD：自己回帰画像生成を13.3倍高速化

SSD（Spatially Speculative Decoding）は、自己回帰的な画像生成においてピクセルの水平・垂直両方の隣接トークンを同時に予測する新手法です。DPG-BenchおよびGenEvalベンチマークにおいて、視覚的品質を損なわずに最大13.3倍の高速化を実現します。

自己回帰画像生成が2D超能力を手に入れる

2026年6月19日、Shilong Xiang、Zirui Zhang、Lijun Yu、Chengzhi Maoの研究チームがarXiv:2606.20543を発表しました。このペーパーでは、自己回帰型視覚モデルの根本的な前提を見直す手法である**Spatially Speculative Decoding（SSD）**を提案しています。

従来の自己回帰モデルは、フラットな1D列においてトークンを1つずつ生成します。SSDはこのアプローチを打破します。1トークンずつ生成する代わりに、空間的に隣接する2つのトークン——水平方向の隣接トークンと直下のトークン——を同時に予測します。これにより画像の2次元構造が活用され、デコーディングステップの総数が削減されます。

視覚品質を維持したまま13.3倍の高速化

DPG-BenchおよびGenEvalベンチマークでの評価により、自己回帰画像生成において最大13.3倍の高速化が確認されました。重要な点として、視覚的品質は高く維持されています——SSDは速度のために画像の忠実度を犠牲にしません。これは従来の積極的なデコーディング最適化における典型的なトレードオフでした。

メモリウォールへの対処——高解像度のボトルネック

SSDはメモリウォール問題に直接アプローチします。高解像度画像の生成時、トークン数が指数的に増加するため、従来の直列デコーディングは深刻なボトルネックとなります。空間的投機的アプローチは、この問題をエンジニアリング的な回避策ではなく、構造的に緩和します。

既存手法との比較

NLPにおける標準的な投機的デコーダーは、1ステップで複数のトークンを提案することで逐次言語モデルを高速化しますが、SSDは画像の2Dトポロジーを特異的に活用します——これは言語系の投機的デコーダーにはない次元です。この研究は圧縮手法（量子化、プルーニング）とも異なり、モデルのパラメータを変更するのではなく、推論戦略のみを変更します。

論文は2026年6月18日に投稿され、6月19日に公開されました。

よくある質問

Spatially Speculative Decodingとは何か、また従来の自己回帰デコーディングとどう異なりますか？

SSDは画像の2D空間構造を活用し、水平方向と垂直方向の隣接トークンを同時に予測します。画像をフラットな1Dトークン列として扱う従来手法とは異なり、直列ボトルネックを排除してデコーディングステップ数を大幅に削減します。

SSDはどのベンチマークで評価され、どのような結果でしたか？

DPG-BenchおよびGenEvalベンチマークでテストされ、高い視覚品質を維持しながら自己回帰画像生成において最大13.3倍の高速化を達成しました。

SSDは高解像度画像生成においてどのような問題を解決しますか？

SSDはメモリウォールのボトルネックに直接対処します。高解像度の自己回帰画像生成では、トークン数が指数的に増大するため、従来の直列デコーディングが深刻なボトルネックとなります。

arXiv:2606.20543: 空間的投機的デコーディングが画像生成を13.3倍高速化

自己回帰画像生成が2D超能力を手に入れる

視覚品質を維持したまま13.3倍の高速化

メモリウォールへの対処——高解像度のボトルネック

既存手法との比較

よくある質問

出典

関連ニュース