Stable Audio 3：オープンウェイト・6分生成・オーディオインペインティングが登場

Stability AIは2026年5月20日、4つのオーディオモデル（Small SFX、Small、Medium、Large）からなるStable Audio 3.0をリリースしました。うち3つはオープンウェイトでHugging Faceで公開されています。最大の変更点は最大6分間のオーディオ生成（前バージョンは47秒まで）、オーディオインペインティング、因果継続、LoRAファインチューニングのサポートで、全モデルがライセンスデータのみで学習したと述べられています。

Stability AIは2026年5月20日、Stable Audio 3.0をリリースしました。これは4つの音声生成モデル（Small SFX、Small、Medium、Large）からなるファミリーで、3つがオープンウェイトとしてHugging Faceで即時公開されています。前バージョンからの最大の変更点：モデルが最大6分間のオーディオを生成できるようになりました（Stable Audio 2は最大47秒でした）。

6分間の生成は何を可能にするのか？

47秒から6分へのジャンプにより、以前のモデルでは使い物にならなかったユースケースが開かれます：短編映画のサウンドトラック、ポッドキャストのイントロ/アウトロ制作、ループなしのゲーム音楽、教育コンテンツ、VR/ARアプリのアンビエントオーディオ作曲。技術的基盤は時間条件付きアテンションを持つ新しい拡散トランスフォーマーで、長い時間窓にわたって構造的一貫性を維持します——これまで生成オーディオが「ドリフト」する主な原因となっていた問題です。

オーディオインペインティングとは？

Stable Audio 3は3種類のオーディオインペインティング方式をサポートします：シングルセグメント（既存録音の1箇所を埋める）、マルチセグメント（複数箇所を同時に）、因果継続（既存録音を自然な流れで継続）。これにより、モデルは「テキストからオーディオ」のデモンストレーターだけでなく、実際のオーディオプロジェクト制作のためのAdobe Premiere ProやiZotope RXのエコシステムに近づきます。

モデルの学習とライセンスについて

Stability AIは全モデルがライセンスデータのみで学習されたと強調しており、これはオープンオーディオモデルを悩ませてきた重要な法的障壁を解消するものです。同社は過去2年間、Getty Imagesと音楽出版社から保護データのトレーニング利用を理由に複数の訴訟を受けていました。Stable Audio 3はこれらの懸念を払拭する初めての試みです。

ライセンスは年間収益が100万ドル以下の組織に無料の商用利用を認めています。それを超える場合はエンタープライズライセンスが必要です。モデルはLoRA ファインチューニングをサポートしており、スタジオは一からの再学習なしに独自のサウンドカタログに合わせてモデルをカスタマイズできます。

オープンAIオーディオエコシステムにとって何を意味するか？

競合他社——Meta AudioCraft、Google MusicLM、OpenAI Jukebox——は主に閉鎖的か法的に問題があります。Stability AIが4モデル中3つをHugging Faceで公開し、ライセンスデータによる学習を採用したことで、これまで存在しなかったプロダクション対応のオープンソースオーディオ生成の道筋が生まれました。

よくある質問

どのモデルがオープンウェイトですか？

ファミリーの4モデルのうち3つ——Small SFX、Small、Medium——はHugging Faceでオープンウェイトとして公開されています。Largeモデルはホステッドおよびエンタープライズライセンスとして提供され、小・中規模モデルはローカル利用に適しています。

オーディオインペインティングとは何ですか？

オーディオインペインティングは最初から新たに生成するのではなく、既存の録音の一部を埋めたり置き換えたりするモデルの能力です。Stable Audio 3はシングルセグメント（1箇所）、マルチセグメント（複数箇所）、因果継続（既存録音の自然な続き）の3方式をサポートしています。

ライセンス条件はどうなっていますか？

Stable Audio 3は年間収益が100万ドル以下の組織に対して無料の商用利用を認めています。それを超える場合はエンタープライズライセンスが必要です。全モデルがライセンスデータのみで学習しており、オープンオーディオモデルを悩ませてきた重要な法的障壁を解消しています。

Stability AI：Stable Audio 3.0がオープンウェイトモデルと最大6分の生成機能を引っさげて登場

6分間の生成は何を可能にするのか？

オーディオインペインティングとは？

モデルの学習とライセンスについて

オープンAIオーディオエコシステムにとって何を意味するか？

よくある質問

出典

関連ニュース