模型

扩散模型 (Diffusion Model)

一类生成式模型,通过学习逆向逐步去除噪声来生成数据;当今 AI 图像、视频和音频生成领域的主导方法,是 Stable Diffusion 和 Sora 的基础。

扩散模型是一种生成式神经网络,通过逆向一个逐步破坏的过程来学习生成数据。在训练阶段,真实样本——通常是图像——通过多个小步骤逐步加入高斯噪声而被破坏。模型学习预测每一步加入了哪种噪声。在生成阶段,过程反向进行:模型从纯噪声出发,迭代「去噪」直至得到连贯的图像、视频帧或音频信号。

现代扩散浪潮始于 Denoising Diffusion Probabilistic Models(Ho 等,2020),并迅速取代了早期的 GAN 方法,因为扩散模型训练更稳定、能更好地随算力扩展,并能产生更清晰、更多样化的结果。潜在扩散(在压缩的 embedding 空间而非原始像素中工作)让高分辨率生成变得可负担,是 Stable Diffusion、DALL-E 3、Midjourney、Imagen、Sora 和 Veo 等系统的基础。

同一框架在不同数据和条件下,可驱动文本到图像、文本到视频、音频合成、3D 场景生成,甚至一些科学应用。扩散之于生成式媒体,正如 Transformer 之于语言:现代深度学习时代的主力。

来源

另见