Stable Diffusion — 术语表 | 24 AI

Stable Diffusion 是一个文本到图像的扩散模型，由 Stability AI 联合 CompVis（慕尼黑大学）和 Runway 的研究者于 2022 年 8 月首次发布。它采用了 2022 年论文 High-Resolution Image Synthesis with Latent Diffusion Models 提出的 潜在扩散（latent diffusion）技术，在压缩的潜在空间而非原始像素中执行迭代去噪——这正是它能在单张消费级 GPU 上运行的原因。

最初的 1.x 系列，随后的 SD 2.x、SDXL（2023）、SD 3（2024）以及 Stable Diffusion 3.5，逐步提升了图像质量、提示词忠实度和分辨率。关键在于权重以宽松许可证发布，这催生了庞大的开源生态：用于空间条件控制的 ControlNet、用于风格和角色的 LoRA 微调、用于参考图像的 IP-Adapter、用于视频的 AnimateDiff，以及 AUTOMATIC1111、ComfyUI、InvokeAI 和 Fooocus 等界面。

Stable Diffusion 的开放发布重塑了 AI 图像格局，让本地生成成为真正的一类应用，并引发了关于训练数据来源、deepfake 和版权的持续争论。它与 Midjourney 和 DALL-E 等闭源竞争对手共同定义了 AI 图像生成的现代水准。

来源

另见