arXiv:2606.20543: 空間的投機的デコーディングが画像生成を13.3倍高速化
SSD(Spatially Speculative Decoding)は、自己回帰的な画像生成においてピクセルの水平・垂直両方の隣接トークンを同時に予測する新手法です。DPG-BenchおよびGenEvalベンチマークにおいて、視覚的品質を損なわずに最大13.3倍の高速化を実現します。
この記事はAIにより一次情報源から生成されました。
自己回帰画像生成が2D超能力を手に入れる
2026年6月19日、Shilong Xiang、Zirui Zhang、Lijun Yu、Chengzhi Maoの研究チームがarXiv:2606.20543を発表しました。このペーパーでは、自己回帰型視覚モデルの根本的な前提を見直す手法である**Spatially Speculative Decoding(SSD)**を提案しています。
従来の自己回帰モデルは、フラットな1D列においてトークンを1つずつ生成します。SSDはこのアプローチを打破します。1トークンずつ生成する代わりに、空間的に隣接する2つのトークン——水平方向の隣接トークンと直下のトークン——を同時に予測します。これにより画像の2次元構造が活用され、デコーディングステップの総数が削減されます。
視覚品質を維持したまま13.3倍の高速化
DPG-BenchおよびGenEvalベンチマークでの評価により、自己回帰画像生成において最大13.3倍の高速化が確認されました。重要な点として、視覚的品質は高く維持されています——SSDは速度のために画像の忠実度を犠牲にしません。これは従来の積極的なデコーディング最適化における典型的なトレードオフでした。
メモリウォールへの対処——高解像度のボトルネック
SSDはメモリウォール問題に直接アプローチします。高解像度画像の生成時、トークン数が指数的に増加するため、従来の直列デコーディングは深刻なボトルネックとなります。空間的投機的アプローチは、この問題をエンジニアリング的な回避策ではなく、構造的に緩和します。
既存手法との比較
NLPにおける標準的な投機的デコーダーは、1ステップで複数のトークンを提案することで逐次言語モデルを高速化しますが、SSDは画像の2Dトポロジーを特異的に活用します——これは言語系の投機的デコーダーにはない次元です。この研究は圧縮手法(量子化、プルーニング)とも異なり、モデルのパラメータを変更するのではなく、推論戦略のみを変更します。
論文は2026年6月18日に投稿され、6月19日に公開されました。
よくある質問
- Spatially Speculative Decodingとは何か、また従来の自己回帰デコーディングとどう異なりますか?
- SSDは画像の2D空間構造を活用し、水平方向と垂直方向の隣接トークンを同時に予測します。画像をフラットな1Dトークン列として扱う従来手法とは異なり、直列ボトルネックを排除してデコーディングステップ数を大幅に削減します。
- SSDはどのベンチマークで評価され、どのような結果でしたか?
- DPG-BenchおよびGenEvalベンチマークでテストされ、高い視覚品質を維持しながら自己回帰画像生成において最大13.3倍の高速化を達成しました。
- SSDは高解像度画像生成においてどのような問題を解決しますか?
- SSDはメモリウォールのボトルネックに直接対処します。高解像度の自己回帰画像生成では、トークン数が指数的に増大するため、従来の直列デコーディングが深刻なボトルネックとなります。