SSD: 자기회귀 이미지 생성 13.3배 고속화

SSD(Spatially Speculative Decoding)는 자기회귀 이미지 생성에서 픽셀의 수평 및 수직 인접 토큰을 동시에 예측하는 새로운 방법으로, DPG-Bench 및 GenEval 벤치마크에서 시각적 품질 저하 없이 최대 13.3배의 속도 향상을 달성합니다.

자기회귀 이미지 생성, 2D 초능력을 획득하다

2026년 6월 19일, Shilong Xiang, Zirui Zhang, Lijun Yu, Chengzhi Mao는 arXiv:2606.20543 논문을 발표하며 **Spatially Speculative Decoding(SSD)**을 소개했습니다. 이 방법은 자기회귀 시각 모델의 근본적인 전제에 도전합니다.

기존 자기회귀 모델은 평면적인 1D 시퀀스에서 토큰을 하나씩 생성합니다. SSD는 이 접근 방식을 깨뜨립니다. 토큰 하나씩 생성하는 대신, 공간적으로 인접한 두 토큰——수평 인접 토큰과 바로 아래 토큰——을 동시에 예측합니다. 이를 통해 이미지의 2차원 구조를 활용하고 전체 디코딩 단계 수를 줄입니다.

시각적 품질 유지하며 13.3배 속도 향상

DPG-Bench와 GenEval 벤치마크에서의 평가를 통해 자기회귀 이미지 생성에서 최대 13.3배 속도 향상이 확인되었습니다. 핵심은 시각적 품질이 높게 유지된다는 점입니다. SSD는 속도를 위해 이미지 충실도를 희생하지 않습니다. 이는 지금까지 공격적인 디코딩 최적화에서 전형적인 트레이드오프였습니다.

메모리 월 해결 — 고해상도의 병목 현상

SSD는 메모리 월 문제를 직접 겨냥합니다. 고해상도 이미지 생성 시 토큰 수가 기하급수적으로 증가하면서 기존 직렬 디코딩이 치명적인 병목이 됩니다. 공간 투기적 방식은 단순한 엔지니어링 우회책이 아닌 구조적 차원에서 이 문제를 완화합니다.

기존 접근 방식과의 비교

NLP의 표준 투기적 디코더는 한 단계에서 여러 토큰을 제안함으로써 순차적 언어 모델을 가속화하지만, SSD는 이미지의 2D 토폴로지를 특이적으로 활용합니다. 이는 언어 투기적 디코더에는 없는 차원입니다. 또한 이 연구는 모델 파라미터를 변경하는 압축 방법(양자화, 가지치기)과 달리 추론 전략만을 변경합니다.

논문은 2026년 6월 18일 제출되어 6월 19일에 공개되었습니다.

자주 묻는 질문

Spatially Speculative Decoding이란 무엇이며, 기존 자기회귀 디코딩과 어떻게 다릅니까?

SSD는 이미지를 평면적인 1D 토큰 시퀀스로 처리하는 대신, 이미지의 2D 공간 구조를 활용하여 수평 인접 토큰과 수직 인접 토큰을 동시에 예측합니다. 이를 통해 직렬 병목 현상을 제거하고 디코딩 단계 수를 획기적으로 줄입니다.

SSD는 어떤 벤치마크에서 평가되었으며 결과는 어떻습니까?

DPG-Bench 및 GenEval 벤치마크에서 테스트되었으며, 높은 시각적 품질을 유지하면서 자기회귀 이미지 생성에서 최대 13.3배의 속도 향상을 달성했습니다.

SSD는 고해상도 이미지 생성에서 어떤 문제를 해결합니까?

SSD는 고해상도 자기회귀 이미지 생성 시 토큰 수의 기하급수적 증가로 인해 발생하는 메모리 월 병목 현상을 직접적으로 해결합니다.

arXiv:2606.20543: 공간 투기적 디코딩으로 이미지 생성 13.3배 가속

자기회귀 이미지 생성, 2D 초능력을 획득하다

시각적 품질 유지하며 13.3배 속도 향상

메모리 월 해결 — 고해상도의 병목 현상

기존 접근 방식과의 비교

자주 묻는 질문

출처

관련 뉴스