Stable Diffusion

Stable Diffusion ist ein Text-zu-Bild-Diffusionsmodell, das im August 2022 erstmals von Stability AI in Zusammenarbeit mit Forschern von CompVis (LMU München) und Runway veröffentlicht wurde. Es wendet die Technik der latenten Diffusion an, die im Paper High-Resolution Image Synthesis with Latent Diffusion Models von 2022 eingeführt wurde, und führt iteratives Denoising in einem komprimierten latenten Raum statt in rohen Pixeln aus — weshalb es auf einer einzigen Consumer-GPU laufen kann.

Die Originalversionen 1.x, gefolgt von SD 2.x, SDXL (2023), SD 3 (2024) und Stable Diffusion 3.5, haben Bildqualität, Prompttreue und Auflösung schrittweise verbessert. Entscheidend ist, dass die Gewichte unter einer permissiven Lizenz veröffentlicht wurden, was ein riesiges Open-Source-Ökosystem ermöglichte: ControlNet für räumliche Konditionierung, LoRA-Fine-Tunes für Stil und Charaktere, IP-Adapter für Referenzbilder, AnimateDiff für Video sowie Oberflächen wie AUTOMATIC1111, ComfyUI, InvokeAI und Fooocus.

Das offene Release von Stable Diffusion hat die KI-Bildlandschaft umgestaltet, lokale Erzeugung zu einer realen Kategorie gemacht und anhaltende Debatten über Trainingsdatenquellen, Deepfakes und Urheberrecht ausgelöst. Zusammen mit geschlossenen Konkurrenten wie Midjourney und DALL-E definiert es den modernen Stand der KI-Bilderzeugung.

Quellen

Siehe auch