모델

Stable Diffusion

Stability AI가 2022년 공개한 오픈 가중치 잠재 확산 모델로, 소비자용 GPU에서 동작하는 최초의 널리 보급된 텍스트-이미지 생성기입니다.

Stable Diffusion은 텍스트-이미지 확산 모델로, 2022년 8월 Stability AI가 CompVis(LMU Munich) 및 Runway 연구진과 협력하여 처음 공개했습니다. 2022년 논문 High-Resolution Image Synthesis with Latent Diffusion Models에서 소개된 잠재 확산 (latent diffusion) 기법을 적용하여, 원시 픽셀이 아닌 압축된 잠재 공간에서 반복적인 노이즈 제거를 수행합니다 — 그 덕분에 단일 소비자용 GPU에서 동작할 수 있습니다.

원래 버전 1.x, 이어서 SD 2.x, SDXL(2023), SD 3(2024), Stable Diffusion 3.5는 이미지 품질, 프롬프트 충실도, 해상도를 점진적으로 개선해 왔습니다. 핵심은 가중치가 관대한 라이선스로 공개되어 거대한 오픈소스 생태계를 가능하게 했다는 점입니다. 공간적 조건화를 위한 ControlNet, 스타일과 캐릭터를 위한 LoRA 파인튜닝, 참조 이미지를 위한 IP-Adapter, 영상을 위한 AnimateDiff, 그리고 AUTOMATIC1111, ComfyUI, InvokeAI, Fooocus 같은 인터페이스들이 그 예입니다.

Stable Diffusion의 오픈 릴리스는 AI 이미지 풍경을 재편했고, 로컬 생성을 진정한 카테고리로 만들었으며, 학습 데이터 출처, 딥페이크, 저작권에 관한 지속적인 논의를 촉발했습니다. Midjourney와 DALL-E 같은 폐쇄형 경쟁자들과 함께 현대 AI 이미지의 최전선을 정의합니다.

출처

관련 항목