이 맥락에서 '훈련 불필요'란 무엇을 의미하나요?

FLy는 드래프트 모델과 타겟 모델 모두 추가 훈련이 필요하지 않습니다. 어떤 파인튜닝도 없이 이미 훈련된 Llama에 바로 적용할 수 있습니다. EAGLE-3 같은 기존 방법은 시간과 GPU 자원을 소비하는 특별한 드래프트 모델 훈련 단계가 필요합니다.

정확한 매칭과 의미론적 수락의 차이는 무엇인가요?

기존 투기적 디코딩은 타겟 모델이 생성할 토큰과 정확히 일치하는 드래프트 토큰만 수락합니다. FLy는 완전히 동일하지 않더라도 의미론적으로 올바른 토큰도 수락합니다. 이를 통해 더 많은 드래프트 예측이 통과되어 생성이 가속됩니다.

FLy로 가장 큰 이익을 얻는 사람은 누구인가요?

AMD 하드웨어에서 대형 Llama 모델을 서비스하는 모든 사람——연구 실험실부터 프로덕션 추론 제공업체까지. 3-5배 가속은 토큰당 비용과 응답 시간의 비례적 감소를 의미하며 재훈련이 필요하지 않습니다.

AMD FLy: 재훈련 없이 Llama 5.21배 가속

AMD FLy란 무엇인가요?

AMD 연구원들은 2026년 4월 20일 추가적인 모델 훈련 없이 작동하는 새로운 투기적 디코딩 방법인 FLy를 발표했습니다. 투기적 디코딩은 소형의 빠른 ‘드래프트’ 모델이 다음 몇 개의 토큰을 미리 예측하고, 대형 ‘타겟’ 모델이 이를 병렬로 검증하는 기술입니다——올바르면 생성이 빨라집니다.

지금까지 EAGLE-3 같은 최고의 방법은 특별한 드래프트 모델 훈련 단계가 필요했으며, 이는 비용이 많이 들고 복잡했습니다. FLy는 이 장벽을 무너뜨립니다. 훈련 없이도 훈련이 필요한 방법을 능가하는 결과를 달성합니다.

FLy는 어떻게 ‘잘못된’ 토큰을 수락하나요?

핵심 혁신은 FLy가 타겟 모델의 예측과 다르더라도 의미론적으로 올바른 드래프트 토큰을 수락한다는 것입니다. 기존 투기적 디코딩은 정확한 매칭을 요구합니다——토큰이 타겟 모델이 자체적으로 생성할 것과 동일해야 합니다. FLy는 2단계 검증으로 이 규칙을 완화합니다:

엔트로피 게이트 — 토큰별 모호성 수준을 감지하고 출력 품질을 해치지 않고 불일치를 수락할 수 있는 시점을 결정합니다
지연된 윈도우 메커니즘 — 일시적으로 불일치를 수락한 후 다음 6개 토큰을 소급 검증을 위해 추적합니다. 컨텍스트가 올바르게 발전하면 토큰이 유지되고, 그렇지 않으면 롤백됩니다

이 로직을 통해 모델이 더 많은 드래프트 예측을 통과시킬 수 있어 더 큰 가속을 직접적으로 가져옵니다.

Llama 모델에서 실제 결과는 어떤가요?

AMD가 제시하는 벤치마크 결과는 인상적입니다:

Llama-3.3-405B — 4.80~5.21배 가속
Llama-3.1-70B — 2.74배 가속
투기적 디코딩 없는 출력 대비 정확도 99% 이상

Llama-3.3 Instruct 벤치마크에서 FLy는 훈련이 필요한 현재 선도 방법인 EAGLE-3을 능가했습니다. 이는 특히 중요한데, 드래프트 모델 훈련 자원이 없는 소규모 팀도 그 인프라를 가진 팀보다 더 나은 결과를 얻을 수 있음을 의미하기 때문입니다.

AMD 생태계에 왜 중요한가요?

AMD는 AI 소프트웨어 스택에서 NVIDIA에 오랫동안 뒤처져 있었으며, ROCm 최적화가 경쟁력의 핵심입니다. FLy는 AMD 연구팀이 NVIDIA 아이디어를 단순히 이식하는 것이 아니라 하드웨어에 특화된 기술에 작업하고 있음을 보여줍니다.

실제로 AMD MI300X 또는 유사한 GPU에서 이미 Llama 모델을 서비스하는 사람은 재훈련 없이, 모델 변경 없이, 출력 품질의 타협 없이 3-5배 가속을 얻을 수 있습니다. 프로덕션 시스템에 있어 이는 직접적인 비용 절감입니다.

오픈소스 추론에 대한 영향

FLy가 중요한 이유는 고성능 추론의 진입 장벽을 낮추기 때문입니다——최신 속도를 달성하기 위해 특별히 훈련된 드래프트 모델이 더 이상 필요하지 않습니다. 자체 인프라에서 Llama 같은 모델을 호스팅하는 오픈소스 커뮤니티에 이는 다음을 의미합니다:

대형 모델로 더 쉬운 실험 (405B를 접근 가능하게)
셀프 호스팅 배포에서 쿼리당 비용 절감
EAGLE 스타일 훈련 자원이 없는 팀을 위한 대안

이 방법이 ROCm 스택 내의 오픈소스 구현으로 출시된다면 2026년 AMD 추론 배포의 표준이 될 수 있습니다.

AMD FLy: 훈련 없는 투기적 디코딩으로 Llama-3.3-405B 5.21배 가속, 정확도 99% 이상

AMD FLy란 무엇인가요?

FLy는 어떻게 ‘잘못된’ 토큰을 수락하나요?

Llama 모델에서 실제 결과는 어떤가요?

AMD 생태계에 왜 중요한가요?

오픈소스 추론에 대한 영향

출처

관련 뉴스