Stable Diffusion

Stable Diffusion은 텍스트-이미지 확산 모델로, 2022년 8월 Stability AI가 CompVis(LMU Munich) 및 Runway 연구진과 협력하여 처음 공개했습니다. 2022년 논문 High-Resolution Image Synthesis with Latent Diffusion Models에서 소개된 잠재 확산 (latent diffusion) 기법을 적용하여, 원시 픽셀이 아닌 압축된 잠재 공간에서 반복적인 노이즈 제거를 수행합니다 — 그 덕분에 단일 소비자용 GPU에서 동작할 수 있습니다.

원래 버전 1.x, 이어서 SD 2.x, SDXL(2023), SD 3(2024), Stable Diffusion 3.5는 이미지 품질, 프롬프트 충실도, 해상도를 점진적으로 개선해 왔습니다. 핵심은 가중치가 관대한 라이선스로 공개되어 거대한 오픈소스 생태계를 가능하게 했다는 점입니다. 공간적 조건화를 위한 ControlNet, 스타일과 캐릭터를 위한 LoRA 파인튜닝, 참조 이미지를 위한 IP-Adapter, 영상을 위한 AnimateDiff, 그리고 AUTOMATIC1111, ComfyUI, InvokeAI, Fooocus 같은 인터페이스들이 그 예입니다.

출처

관련 항목