Difuzijski model

Difuzijski model je generativna neuronska mreža koja uči proizvesti podatke poništavanjem postupnog procesa kvarenja. Tijekom treniranja stvarni se uzorci — najčešće slike — postupno uništavaju dodavanjem Gaussovog šuma kroz mnogo malih koraka. Model uči procijeniti koji je šum dodan u svakom koraku. Kod generiranja proces ide u suprotnom smjeru: model kreće od čistog šuma i iterativno ga “čisti” do koherentne slike, video sličice ili audio signala.

Suvremeni val započeo je radom Denoising Diffusion Probabilistic Models (Ho i sur., 2020.) i brzo je istisnuo ranije GAN pristupe jer su difuzijski modeli stabilniji za treniranje, bolje skaliraju s računskom snagom i daju oštrije i raznolikije rezultate. Latentna difuzija (rad u sažetom embedding prostoru umjesto sirovih piksela) učinila je generiranje visoke rezolucije pristupačnim i osnova je sustava poput Stable Diffusiona, DALL-E 3, Midjourneyja, Imagena, Sore i Veo.

Isti okvir, s drugačijim podacima i uvjetovanjem, pogoni tekst-u-sliku, tekst-u-video, sintezu zvuka, generiranje 3D scena, pa i neke znanstvene primjene. Difuzija je za generativne medije ono što je transformer za jezik: radni konj suvremene ere dubokog učenja.

Izvori

Vidi također