DiffusionGemma 26B: 4배 빠른 AI 생성

DiffusionGemma는 텍스트를 순차적이 아닌 병렬로 생성하는 Google의 26B MoE 모델입니다. 단일 H100 GPU에서 초당 1,000토큰 이상을 달성하며, 표준 자동 회귀 모델보다 최대 4배 빠릅니다. 품질은 Gemma 4 대비 다소 낮습니다.

Google이 DiffusionGemma를 발표했습니다 — 기존의 모든 인기 언어 모델과 본질적으로 다른 방식으로 텍스트를 생성하는 26B 모델입니다.

확산 텍스트 생성이란 무엇입니까?

확산 텍스트 생성은 GPT나 표준 Gemma 4 같은 고전적 자동 회귀 모델과 반대 원리로 작동합니다. 루프에서 순차적으로 하나씩 토큰을 생성하는 대신, DiffusionGemma는 각 순전파에서 256개의 토큰 블록 전체를 병렬로 생성합니다. 결과는 현대 GPU 하드웨어에서 처리량의 극적인 증가입니다.

실제로 얼마나 빠릅니까?

단일 NVIDIA H100 GPU에서 모델은 초당 1,000토큰 이상을 달성합니다. 소비자용 RTX 5090 카드에서는 초당 700토큰 이상입니다. Google의 측정에 따르면 같은 GPU의 유사한 자동 회귀 모델보다 최대 4배 빠릅니다 — 긴 생성이나 높은 처리량 요구에서 특히 두드러지는 차이입니다.

접근성과 절충

DiffusionGemma는 Apache 2.0 라이선스의 오픈소스 모델로 제공됩니다. 양자화 버전은 단 18GB VRAM에 적합해 중급 소비자용 카드에서도 실용적입니다. 모델은 Hugging Face, Google Cloud Model Garden, NVIDIA NIM 플랫폼에 게시되었습니다.

아키텍처: 38억 개의 활성 매개변수를 가진 MoE

총 260억 개의 매개변수에도 불구하고 DiffusionGemma는 혼합 전문가(MoE) 아키텍처를 사용합니다 — 각 추론에서 38억 개의 매개변수만 활성화됩니다. 이는 호출당 계산 비용을 줄이고 제한된 리소스에서 배포를 용이하게 합니다.

속도의 대가

Google은 절충을 숨기지 않습니다. 텍스트 품질은 표준 Gemma 4보다 다소 낮습니다. DiffusionGemma는 처리량이 중요한 시나리오 — 대량 생성, 스트리밍 애플리케이션, 엣지 추론 — 를 위해 설계되었으며, 최대 정밀도가 요구되는 작업에는 적합하지 않습니다. 품질이 우선시되는 프로덕션 애플리케이션에서는 Gemma 4가 여전히 더 나은 선택입니다.

자주 묻는 질문

확산 텍스트 생성이란 무엇입니까?

확산 텍스트 생성은 모델이 한 번의 순전파에서 전체 토큰 블록을 병렬로 생성하는 방식으로, 토큰을 하나씩 순차적으로 생성하는 자동 회귀 모델과 다릅니다.

DiffusionGemma 26B는 Gemma 4와 품질이 같습니까?

아닙니다 — Google은 품질이 표준 Gemma 4보다 다소 낮다고 명시합니다. DiffusionGemma는 속도에 최적화되어 있으며, 품질 절충은 의도적인 설계 선택의 결과입니다.

Google: DiffusionGemma 26B — 확산 방식으로 4배 빠른 텍스트 생성

확산 텍스트 생성이란 무엇입니까?

실제로 얼마나 빠릅니까?

접근성과 절충

아키텍처: 38억 개의 활성 매개변수를 가진 MoE

속도의 대가

자주 묻는 질문

출처

관련 뉴스