Diffusionsmodell

Ein Diffusionsmodell ist ein generatives neuronales Netz, das lernt, Daten zu erzeugen, indem es einen schrittweisen Korruptionsprozess umkehrt. Während des Trainings werden echte Beispiele — meist Bilder — durch Hinzufügen von Gaußschem Rauschen über viele kleine Schritte allmählich zerstört. Das Modell lernt zu schätzen, welches Rauschen in jedem Schritt hinzugefügt wurde. Bei der Erzeugung läuft der Prozess in umgekehrter Richtung: Das Modell startet mit reinem Rauschen und „bereinigt” es iterativ zu einem kohärenten Bild, einem Videoframe oder einem Audiosignal.

Die moderne Welle begann mit dem Paper Denoising Diffusion Probabilistic Models (Ho et al., 2020) und verdrängte rasch frühere GAN-Ansätze, weil Diffusionsmodelle stabiler zu trainieren sind, besser mit Rechenleistung skalieren und schärfere und vielfältigere Ergebnisse liefern. Latente Diffusion (Arbeit in einem komprimierten Embedding-Raum statt in rohen Pixeln) machte hochauflösende Erzeugung erschwinglich und ist die Grundlage von Systemen wie Stable Diffusion, DALL-E 3, Midjourney, Imagen, Sora und Veo.

Dasselbe Framework treibt mit anderen Daten und Konditionierung Text-zu-Bild, Text-zu-Video, Audiosynthese, 3D-Szenenerzeugung und sogar einige wissenschaftliche Anwendungen an. Diffusion ist für generative Medien das, was Transformer für Sprache sind: das Arbeitstier der modernen Deep-Learning-Ära.

Quellen

Siehe auch