추측적 디코딩이란 무엇입니까?

작은 빠른 모델이 다음 토큰을 「추측」하고 큰 모델이 한 번의 순전파로 검증하는 가속화 기술입니다. 추측이 맞으면 생성 시간이 크게 줄어듭니다.

훈련 불필요라는 것은 무슨 의미입니까?

이 방법은 추가 훈련이나 파인튜닝 없이 기존 모델에 적용할 수 있어, 개발자가 GPU 비용 없이 즉시 속도 향상을 얻을 수 있어 실용적입니다.

RACER：검색과 logits 초안 전략을 결합하여 LLM 추론 속도를 2배로 높이는 훈련 불필요 방법

추측적 디코딩이란 무엇이고 왜 중요합니까?

추측적 디코딩은 대규모 언어 모델을 가속화하는 기술로, 작고 빠른 「초안」 모델이 여러 개의 미래 토큰을 한 번에 제안하고 큰 메인 모델이 한 번의 순전파로 이들을 검증합니다. 제안이 맞으면 메인 모델은 자기회귀 생성 단계의 대부분을 건너뜁니다——품질 손실 없이 속도 향상을 얻습니다.

문제는 초안 모델의 품질이 속도 향상을 제한한다는 것입니다: 초안이 자주 틀리면 검증이 거부하여 이점이 사라집니다. 전통적인 접근법은 추가 초안 모델 훈련이나 복잡한 휴리스틱을 필요로 합니다.

RACER는 어떻게 작동합니까?

RACER(검색 증강 컨텍스트 고속 추측적 디코딩)는 서로 보완하는 두 가지 초안 전략을 결합합니다:

검색 기반 초안 — 일상적이거나 훈련 데이터에 나타나는 응답 부분에 대해 RACER는 코퍼스에서 유사한 시퀀스를 검색하여 초안으로 사용합니다. 저자들은 이를 「신뢰할 수 있는 앵커」라고 부릅니다——예측 가능한 세그먼트에 대해 검색이 정확한 제안을 제공합니다.
logits 기반 초안 — 더 창의적이거나 예측하기 어려운 부분에 대해 RACER는 모델 자체의 logit 확률을 사용하여 초안을 생성합니다. 저자들은 이를 「유연한 외삽」이라고 부릅니다——검색이 신뢰할 수 없는 상황에 적합합니다.

중요한 것은 전체 방법이 추가 훈련 없이 작동한다는 것입니다——기존 모델에 적용하면 즉시 속도 향상을 얻습니다.

실제로 얼마나 빠릅니까?

세 가지 벤치마크에서 결과는 일관됩니다:

Spec-Bench: 자기회귀 기준선 대비 2배 이상 속도 향상
HumanEval(코드 생성): 2배 이상 속도 향상
MGSM-ZH(중국어 수학): 2배 이상 속도 향상

RACER는 이전의 모든 훈련 불필요 추측적 디코딩 방법을 능가합니다. 검색 기반과 logits 기반 접근법을 단독으로 사용하는 경우도 포함하여. 조합이 다양한 생성 모드를 커버하므로 더 큰 부스트를 제공합니다.

개발자가 즉시 활용할 수 있는 것은 무엇입니까?

RACER는 ACL 2026 Findings에 채택되었으며, 코드가 공식 저장소에서 제공될 가능성이 높습니다. 자체 LLM 추론 서버(vLLM, llama.cpp, TensorRT-LLM)를 운영하는 엔지니어에게 이 방법은 다음을 의미합니다:

모델 재구성 없이 2배 빠른 생성
훈련 비용 없음 — LoRA, RLHF 또는 추가 초안 모델 불필요
기존 양자화 및 최적화와의 호환성

프로덕션 LLM 워크로드(고객 지원, 코드 어시스턴트, 배치 추론)에서 2배 속도 향상은 동일한 처리량에서 GPU 비용이 절반으로 직접 환산됩니다.

RACER：검색과 logits 초안 전략을 결합하여 LLM 추론 속도를 2배로 높이는 훈련 불필요 방법

추측적 디코딩이란 무엇이고 왜 중요합니까?

RACER는 어떻게 작동합니까?

실제로 얼마나 빠릅니까?

개발자가 즉시 활용할 수 있는 것은 무엇입니까?

출처

관련 뉴스