Stable Diffusion

Stable Diffusion je tekst-u-sliku difuzijski model prvi put objavljen u kolovozu 2022. Stability AI uz suradnju istraživača iz CompVis (LMU München) i Runwaya. Primjenjuje tehniku latentne difuzije uvedenu radom High-Resolution Image Synthesis with Latent Diffusion Models iz 2022., izvodeći iterativno čišćenje šuma u sažetom latentnom prostoru umjesto u sirovim pikselima — zbog čega može raditi na jednom potrošačkom GPU-u.

Originalne verzije 1.x, zatim SD 2.x, SDXL (2023.), SD 3 (2024.) i Stable Diffusion 3.5 postupno su poboljšali kvalitetu slike, vjernost upitu i rezoluciju. Ključno je da su težine objavljene pod permisivnom licencom, što je omogućilo ogroman open-source ekosustav: ControlNet za prostorno uvjetovanje, LoRA fine-tuneove za stil i likove, IP-Adapter za referentne slike, AnimateDiff za video, te sučelja poput AUTOMATIC1111, ComfyUI, InvokeAI i Fooocus.

Otvoreno izdanje Stable Diffusiona preoblikovalo je krajolik AI slika, učinilo lokalno generiranje stvarnom kategorijom i pokrenulo trajne rasprave o izvorima podataka za treniranje, deepfakeovima i autorskim pravima. Uz zatvorene konkurente poput Midjourneyja i DALL-E, definira suvremeno stanje AI slika.

Izvori

Vidi također