扩散模型 (Diffusion Model)

扩散模型是一种生成式神经网络，通过逆向一个逐步破坏的过程来学习生成数据。在训练阶段，真实样本——通常是图像——通过多个小步骤逐步加入高斯噪声而被破坏。模型学习预测每一步加入了哪种噪声。在生成阶段，过程反向进行：模型从纯噪声出发，迭代「去噪」直至得到连贯的图像、视频帧或音频信号。

现代扩散浪潮始于 Denoising Diffusion Probabilistic Models（Ho 等，2020），并迅速取代了早期的 GAN 方法，因为扩散模型训练更稳定、能更好地随算力扩展，并能产生更清晰、更多样化的结果。潜在扩散（在压缩的 embedding 空间而非原始像素中工作）让高分辨率生成变得可负担，是 Stable Diffusion、DALL-E 3、Midjourney、Imagen、Sora 和 Veo 等系统的基础。

同一框架在不同数据和条件下，可驱动文本到图像、文本到视频、音频合成、3D 场景生成，甚至一些科学应用。扩散之于生成式媒体，正如 Transformer 之于语言：现代深度学习时代的主力。

来源

另见