Google: 고정된 멀티 토큰 예측으로 Pixel에서 Gemini Nano 50%+ 속도 향상
Google이 고정된 멀티 토큰 예측 기법을 사용하여 Pixel 9와 10에서 Gemini Nano 추론을 50% 이상 가속했습니다. 이 기법은 한 번의 모델 패스에서 평균 약 2개의 토큰을 생성하며, 인스턴스당 130MB 메모리를 절약하고 출력 결과를 전혀 변경하지 않습니다.
이 기사는 AI가 1차 출처를 기반으로 생성했습니다.
고정된 MTP 헤드는 Gemini Nano를 어떻게 가속합니까?
멀티 토큰 예측(MTP)은 모델이 한 번의 패스에서 여러 토큰을 미리 제안하는 기법으로, 호출당 토큰 하나만 생성하는 표준 접근 방식보다 빠릅니다. Google은 고정된 변형을 적용했습니다: MTP 헤드는 특별한 계산 없이 주 모델의 고정된 KV 캐시(키와 값의 임시 메모리)에 크로스 어텐션을 수행합니다. 결과 — 패스당 평균 ~2개의 추가 토큰 — 는 원본 모델의 출력과 비트 단위로 동일합니다.
기기에서 얼마나 빠르고 얼마나 저렴합니까?
Pixel 9에서의 추론 가속은 이전에 보조 생성 제안자 역할을 했던 별도의 소형 네트워크인 독립 실행형 드래프터 모델과 비교하여 50% 이상입니다. 속도 외에도 아키텍처는 인스턴스당 130MB의 메모리를 절약하는데, 이는 RAM이 제한된 모바일 기기에서 매우 중요합니다. 스마트 응답(Smart Replies)과 같은 예측 가능한 구조의 경우 제안된 토큰의 수락률이 표준 접근 방식보다 55% 높습니다.
제로 카피 아키텍처와 Pixel에서의 적용
Google은 이 접근 방식을 제로 카피 아키텍처로 설명했습니다: MTP 헤드가 중간 결과를 복사하지 않고 주 모델과 KV 캐시를 공유하여 추론적 디코딩의 주요 메모리 및 연산 오버헤드 원인을 제거합니다. 이 기법은 이미 Pixel 9와 Pixel 10에 두 가지 기능으로 배포되었습니다: AI 알림 요약과 교정(텍스트 교열). 두 기능 모두 데이터를 클라우드로 전송하지 않는 로컬 온디바이스 모델을 사용합니다.
더 넓은 맥락: 타협 없는 온디바이스 AI
지금까지 모바일 기기에서의 추론 가속은 종종 추가 메모리 사용량을 도입하고 때로는 다른 출력을 생성하는 별도의 소형 드래프터 모델을 필요로 했습니다. Google의 접근 방식은 처음부터 파인튜닝하거나 정확도를 잃지 않고도 고정된 MTP 헤드를 기존 Gemini Nano에 통합할 수 있음을 보여줍니다 — 빠르고 원래 모델 동작에 충실한 온디바이스 AI를 향한 한 걸음입니다.
자주 묻는 질문
- 멀티 토큰 예측이란 무엇이며 표준 생성과 어떻게 다릅니까?
- 표준 언어 모델은 호출당 토큰 하나를 생성합니다. 멀티 토큰 예측(MTP)은 한 번의 패스에서 여러 토큰을 미리 제안하는 추가 헤드를 사용하고 주 모델이 이를 수락하거나 거부합니다 — 결과는 동일하지만 추론이 더 빠릅니다.
- MTP 헤드가 고정(frozen)되면 실제로 무엇을 의미합니까?
- 고정(frozen)은 MTP 헤드의 가중치가 주 모델과 함께 학습되지 않고 한 번 학습된 후 고정된다는 의미입니다. 이를 통해 재계산 없이 주 모델과 KV 캐시를 공유할 수 있어 속도 향상과 메모리 절약 모두를 가져옵니다.