모델

확산 모델 (diffusion model)

단계적으로 추가된 노이즈를 되돌리는 법을 학습하는 생성 모델 클래스로, 오늘날 AI 생성 이미지, 영상, 오디오의 업계 지배적인 접근 방식입니다.

**확산 모델 (diffusion model)**은 점진적인 손상 과정을 역전시킴으로써 데이터를 생성하는 법을 학습하는 생성형 신경망입니다. 학습 중에 실제 샘플 — 대개 이미지 — 은 많은 작은 단계에 걸쳐 가우시안 노이즈를 더해가며 점진적으로 파괴됩니다. 모델은 각 단계에서 어떤 노이즈가 추가되었는지를 추정하는 법을 배웁니다. 생성 시에는 과정이 반대 방향으로 진행됩니다. 모델은 순수한 노이즈에서 시작하여 이를 반복적으로 “정제”하여 일관된 이미지, 영상 프레임, 오디오 신호로 만듭니다.

현대의 흐름은 Denoising Diffusion Probabilistic Models (Ho 외, 2020) 논문과 함께 시작되었고, 이전의 GAN 접근법을 빠르게 밀어냈습니다. 확산 모델이 학습이 더 안정적이고, 연산량에 따라 더 잘 확장되며, 더 선명하고 다양한 결과를 내기 때문입니다. 잠재 확산(원시 픽셀이 아닌 압축된 임베딩 공간에서 작동)은 고해상도 생성을 감당할 수 있게 만들었고, Stable Diffusion, DALL-E 3, Midjourney, Imagen, Sora, Veo 같은 시스템들의 기반입니다.

같은 프레임워크가 다른 데이터와 조건화로 텍스트-이미지, 텍스트-영상, 오디오 합성, 3D 장면 생성, 심지어 일부 과학 응용까지 구동합니다. 확산은 생성 미디어에 있어 트랜스포머가 언어에 대해 그러한 것과 같은 역할을 합니다. 즉 현대 딥러닝 시대의 주력 도구입니다.

출처

관련 항목