DiffusionGemma 26B: 4× brža AI generacija

DiffusionGemma je Googleov 26B MoE model koji generira tekst difuzijskim pristupom — paralelno, a ne sekvencijalno. Postiže više od 1.000 tokena u sekundi na jednom H100 GPU-u, što je do 4× brže od standardnih autoregresivnih modela, uz kompromis u kvaliteti u odnosu na Gemma 4.

Google je objavio DiffusionGemma — 26B model koji generira tekst bitno drugačije od svih dosadašnjih popularnih jezičnih modela.

Što znači difuzijsko generiranje teksta?

Difuzijsko generiranje teksta (diffusion text generation) radi na principu suprotnom od klasičnih autoregresivnih modela poput GPT-a ili standardnog Gemma 4. Umjesto da generira jedan token po jedan — slijedno, u petlji — DiffusionGemma u svakom forward passu generira cijeli blok od 256 tokena paralelno. Rezultat je dramatično povećanje propusnosti na modernom GPU hardveru.

Koliko je zapravo brži?

Na jednom NVIDIA H100 GPU-u model postiže više od 1.000 tokena u sekundi. Na potrošačkoj kartici RTX 5090 brzina iznosi 700+ tokena u sekundi. Prema Googleovim mjerenjima, to je do 4× brže od usporedivih autoregresivnih modela na istom GPU-u — razlika koja je posebno vidljiva pri dugim generacijama ili visokim zahtjevima za propusnošću.

Pristupačnost i kompromisi

DiffusionGemma je dostupna kao open-source model pod Apache 2.0 licencom. Kvantizirana verzija stane u svega 18 GB VRAM-a, što je čini praktičnom čak i na mid-range potrošačkim karticama. Model je objavljen na Hugging Faceu, Google Cloud Model Gardenu i NVIDIA NIM platformi.

Arhitektura: MoE s 3,8B aktivnih parametara

Unatoč ukupnoj veličini od 26B parametara, DiffusionGemma koristi Mixture-of-Experts (MoE) arhitekturu — pri svakom zaključivanju aktivira samo 3,8B parametara. To smanjuje računalne troškove po pozivu i olakšava deployment na ograničenim resursima.

Cijena brzine

Google ne skriva kompromis: kvaliteta teksta je nešto niža od standardnog Gemma 4. DiffusionGemma je dizajnirana za scenarije gdje je propusnost kritična — masovne generacije, streaming aplikacije, edge inference — a ne za zadatke koji zahtijevaju maksimalnu preciznost. Za produkcijske primjene gdje kvaliteta ima prioritet, Gemma 4 ostaje bolji izbor.

Česta pitanja

Što je difuzijsko generiranje teksta?

Difuzijsko generiranje teksta (diffusion text generation) pristup je u kojemu model generira cijele blokove tokena paralelno u jednom prolazu, za razliku od autoregresivnih modela koji generiraju token po token slijedno.

Je li DiffusionGemma 26B kvalitetom jednaka Gemma 4?

Ne — Google eksplicitno navodi da je kvaliteta nešto niža od standardnog Gemma 4. DiffusionGemma je optimizirana za brzinu, a kompromis u kvaliteti je svjesna posljedica tog dizajnerskog odabira.

Google: DiffusionGemma 26B — 4× brža generacija teksta difuzijskim pristupom