Stable Diffusion

Stable Diffusionは、テキストから画像への拡散モデルで、2022年8月にStability AIがCompVis（LMUミュンヘン）およびRunwayの研究者と協力して初めてリリースしました。2022年の論文 High-Resolution Image Synthesis with Latent Diffusion Models で導入された潜在拡散技術を採用し、生のピクセルではなく圧縮された潜在空間で反復的なノイズ除去を実行します — そのおかげで単一のコンシューマGPUで動作可能です。

オリジナルのバージョン1.x、続くSD 2.x、SDXL（2023年）、SD 3（2024年）、Stable Diffusion 3.5は、画質、プロンプト忠実度、解像度を段階的に改善してきました。重要なのは、重みが寛容なライセンスでリリースされ、巨大なオープンソースエコシステムを可能にしたことです。空間的条件付けのためのControlNet、スタイルやキャラクターのためのLoRAファインチューニング、参照画像のためのIP-Adapter、動画のためのAnimateDiff、そしてAUTOMATIC1111、ComfyUI、InvokeAI、Fooocusのようなインターフェースが含まれます。

Stable Diffusionのオープンリリースは、AI画像の風景を一変させ、ローカル生成を本物のカテゴリーにし、学習データソース、ディープフェイク、著作権に関する継続的な議論を引き起こしました。MidjourneyやDALL-Eのようなクローズドな競合と並び、現代のAI画像の最前線を定義しています。

出典

関連項目