モデル

拡散モデル(diffusion model)

段階的に追加されたノイズを取り除くことを学習する生成モデルのクラスで、AI生成の画像、動画、音声における今日の業界で支配的なアプローチとなっています。

**拡散モデル(diffusion model)**は、段階的な破壊プロセスを逆転させることでデータを生成することを学習する生成的ニューラルネットワークです。学習中、実サンプル — 多くの場合は画像 — が、多くの小さなステップにわたってガウスノイズを加えることで徐々に破壊されます。モデルは、各ステップで追加されたノイズを推定することを学びます。生成時には、プロセスは逆方向に進みます。モデルは純粋なノイズから始めて、それを反復的に「クリーン化」し、一貫した画像、動画フレーム、または音声信号にします。

現代の波は、論文 Denoising Diffusion Probabilistic Models(Ho他、2020年)で始まり、以前のGANアプローチを急速に押しのけました。拡散モデルは学習がより安定し、計算量に対してより良くスケールし、よりシャープで多様な結果をもたらすからです。潜在拡散(生のピクセルではなく圧縮された埋め込み空間で動作する)が高解像度生成を手頃なものにし、Stable Diffusion、DALL-E 3、Midjourney、Imagen、Sora、Veoのようなシステムの基盤となっています。

同じフレームワークが、異なるデータと条件付けで、テキストから画像、テキストから動画、音声合成、3Dシーン生成、さらには一部の科学応用も駆動します。拡散モデルは生成メディアにとって、トランスフォーマーが言語にとってそうであるのと同様の存在です。現代のディープラーニング時代の主役なのです。

出典

関連項目