인프라
추측 디코딩
작은 초안 모델이 여러 토큰을 한 번에 제안하고 큰 모델이 병렬로 검증·채택하는 추론 가속 기법으로, 출력은 표준 디코딩과 완전히 동일하다.
추측 디코딩(speculative decoding)은 작고 빠른 “초안” 모델이 여러 개의 미래 토큰을 한 번에 제안하고, 큰 목표 모델이 이를 단일 순전파로 검증하는 추론 가속 기법이다.
대규모 언어 모델은 토큰을 하나씩 생성하기 때문에 매 단계마다 신경망 전체를 통과해야 하여 느리다. 추측 디코딩은 이 순차적 병목을 해소한다. 비용이 낮은 초안 모델(보통 증류된 버전이나 더 작은 변형)이 다음 3~8개 토큰을 추측하면, 목표 모델이 그 확률을 병렬로 계산한다. 수정된 거부 표집 규칙은 추측한 토큰이 목표 분포와 일치하는 한 채택하고 첫 번째 불일치를 교정한다. 핵심은 출력이 표준 디코딩과 수학적으로 완전히 동일하다는 점이다.
이 기법은 2022년 구글 리서치의 Leviathan 등이 제안했으며, 2024년부터 프로덕션 모델 서빙의 표준이 되어 vLLM, NVIDIA TensorRT-LLM, SGLang 등이 지원한다. 일반적으로 품질 손실 없이 2~3배 가속(Medusa, EAGLE 같은 변형은 그 이상)을 제공하여 가장 중요한 지연 시간 최적화 기법 중 하나로 꼽힌다.