DiffusionGemma: jaz 28,6× srušen na 1,1× interpretabilnošću

DiffusionGemma je Googleov difuzijski jezični model koji operira u kontinuiranom latentnom prostoru. Istraživanje 13 autora predvođeno Neelom Nandom pokazuje da je inicijalna neprozirnost 28,6× veća od Gemme 4, ali interpretabilni token bottleneck tu razliku sužava na svega 1,1×.

DiffusionGemma: difuzijski LM koji se može nadzirati jednako kao Gemma 4

Istraživački tim od 13 autora, predvođen Joshuom Engelsom, Callumom McDougallom, Bilalom Chughtaijem i Neelom Nandom, objavio je 18. lipnja 2026. rad koji prvi sustavno ispituje interpretabilnost difuzijskih jezičnih modela. Fokus je na DiffusionGemmi — Googleovom modelu koji generira tekst difuzijskim procesom u kontinuiranom latentnom prostoru, a ne autoregresivnim token-po-token pristupom.

Početni nalaz: neprozirnost 28,6 puta veća od Gemme 4

Bez ikakvih prilagodbi, DiffusionGemma postiže „opaque serial depth” koji je 28,6× viši od Gemme 4 — ekvivalentnog autoregresivnog modela iste veličine. Taj rezultat naizgled sugerira da difuzijski modeli fundamentalno otežavaju nadzor i interpretabilnost, što bi bio ozbiljan problem za sigurnost i poravnanje (alignment).

Rješenje: interpretabilni token bottleneck svodi jaz na 1,1×

Ključni doprinos rada je tehnika „interpretable token bottleneck” — mapiranje unutarnjih reprezentacija modela na prostor čitljiv istraživačima. Nakon primjene ove tehnike razlika između DiffusionGemme i Gemme 4 pada s 28,6× na samo 1,1×, što oba modela praktično izjednačuje u pogledu monitorabilnosti.

Tri nova difuzijsko-specifična fenomena

Rad identificira pojave karakteristične isključivo za difuzijske LM-ove:

Nekronološko zaključivanje — model ne zaključuje slijedno s lijeva na desno
Token i sequence smearing — informacije se „razmazuju” po više pozicija istovremeno
Intermediate-context reasoning — model koristi međuslojni kontekst na načine koji nemaju analogiju u autoregresivnim arhitekturama

Zaključak: difuzijski LM-ovi mogu biti jednako monitorabilni

Autori zaključuju da difuzijski jezični modeli mogu biti jednako monitorabilni kao autoregresivni modeli — ali je za to potreban prilagođen interpretabilni alat, a ne direktna primjena metoda razvijenih za GPT-style modele. Rad otvara put prema sigurnosnom auditu difuzijskih LM-ova koji su sve prisutni u produkcijskim okruženjima.

Česta pitanja

Što je DiffusionGemma i po čemu se razlikuje od standardnih jezičnih modela?

DiffusionGemma je Googleov jezični model koji tekst generira difuzijskim procesom u kontinuiranom latentnom prostoru, umjesto klasičnog autoregresivnog token-po-token pristupa kakav koriste GPT ili Gemma 4.

Kolika je razlika u interpretabilnosti između DiffusionGemme i Gemme 4?

Bez prilagodbi DiffusionGemma ima 28,6× višu „neprozirnu serijsku dubinu” od Gemme 4, ali uvođenjem interpretabilnog token bottlenecka razlika se smanjuje na samo 1,1×, što ih praktično izjednačuje.

Koje su difuzijsko-specifične pojave otkrivene u istraživanju?

Istraživanje identificira tri nova fenomena: nekronološko zaključivanje, token i sequence smearing te intermediate-context reasoning — pojave karakteristične za difuzijske modele, a odsutne u autoregresivnim arhitekturama.

arXiv:2606.20560: DiffusionGemma jednako čitljiv kao Gemma 4 — praznina od 28,6× srušena na 1,1×