Stability AI:Stable Audio 3.0发布开放权重模型,支持最长6分钟生成
Stability AI于2026年5月20日发布Stable Audio 3.0——包含4个音频模型(Small SFX、Small、Medium、Large)的系列,其中3个为开放权重并已在Hugging Face上线。最大亮点是支持最长6分钟的音频生成(前版本仅支持47秒),以及音频修复、因果延续和LoRA微调功能。公司声明所有模型均使用经许可的数据进行训练。
本文由人工智能基于一手来源生成。
Stability AI于2026年5月20日发布Stable Audio 3.0——包含四个生成式音频模型(Small SFX、Small、Medium、Large)的系列,其中三个为开放权重并已立即在Hugging Face上线。与前版本相比最重要的变化:模型现在可以生成最长6分钟的音频(Stable Audio 2最多支持47秒)。
6分钟生成能实现什么?
从47秒到6分钟的飞跃,开启了此前完全不适用该模型的应用场景:短片配乐、播客片头/片尾制作、游戏音乐(无需循环)、教育内容以及VR/AR应用中的环境音效合成。技术基础是全新的扩散变换器结合时间条件注意力机制,可在长时间段内保持结构连贯性——这一直是生成音频”漂移”的主要原因。
什么是音频修复?
Stable Audio 3支持三种音频修复模式:单段(填充现有录音中的一个部分)、多段(同时处理多个部分)和因果延续(以自然方式延续现有录音)。这使模型向Adobe Premiere Pro和iZotope RX生态系统靠拢——真正用于实际音频项目合成的工具,而非仅仅是”文字转音频”的演示。
模型如何训练,许可证是什么?
Stability AI强调所有模型均使用经许可的数据进行训练——这解决了困扰开放音频模型的关键法律障碍。该公司在过去两年曾因在训练中使用受保护数据而面临Getty Images和音乐出版商的多项诉讼。Stable Audio 3是首次尝试解决这些争议的版本。
许可证允许年收入不超过100万美元的组织免费商业使用。超过该门槛需要企业许可证。模型支持LoRA微调,允许工作室无需从头重新训练即可根据自有音效目录进行定制。
对开放AI音频生态有何意义?
竞争对手——Meta AudioCraft、Google MusicLM、OpenAI Jukebox——大多是封闭的或存在法律风险。Stability AI将4款模型中的3款上传至Hugging Face,并使用经许可的训练数据,为音频生成提供了此前不存在的生产就绪开源路径。
常见问题
- 哪些模型是开放权重的?
- 系列中的4个模型中,3个——Small SFX、Small和Medium——已在Hugging Face上以开放权重提供。Large模型通过托管API和企业许可证提供,而小型和中型模型适合本地使用。
- 什么是音频修复?
- 音频修复是模型填充或替换现有录音中某一部分而不是从头生成的能力。Stable Audio 3支持单段(一个部分)、多段(多个部分)和因果延续(自然延续现有录音)。
- 许可证条款是什么?
- Stable Audio 3允许年收入不超过100万美元的组织免费商业使用。超过该门槛需要企业许可证。所有模型均使用经许可的数据训练,解决了困扰开放音频模型的关键法律障碍。