模型
Stable Diffusion
Stability AI 于 2022 年发布的 open-weight 潜在扩散模型;首个面向消费级 GPU 的广泛可用的文本到图像生成器,重塑了 AI 图像生态。
Stable Diffusion 是一个文本到图像的扩散模型,由 Stability AI 联合 CompVis(慕尼黑大学)和 Runway 的研究者于 2022 年 8 月首次发布。它采用了 2022 年论文 High-Resolution Image Synthesis with Latent Diffusion Models 提出的 潜在扩散(latent diffusion)技术,在压缩的潜在空间而非原始像素中执行迭代去噪——这正是它能在单张消费级 GPU 上运行的原因。
最初的 1.x 系列,随后的 SD 2.x、SDXL(2023)、SD 3(2024)以及 Stable Diffusion 3.5,逐步提升了图像质量、提示词忠实度和分辨率。关键在于权重以宽松许可证发布,这催生了庞大的开源生态:用于空间条件控制的 ControlNet、用于风格和角色的 LoRA 微调、用于参考图像的 IP-Adapter、用于视频的 AnimateDiff,以及 AUTOMATIC1111、ComfyUI、InvokeAI 和 Fooocus 等界面。
Stable Diffusion 的开放发布重塑了 AI 图像格局,让本地生成成为真正的一类应用,并引发了关于训练数据来源、deepfake 和版权的持续争论。它与 Midjourney 和 DALL-E 等闭源竞争对手共同定义了 AI 图像生成的现代水准。