🟡 📦 Open Source Veröffentlicht: · 2 Min. Lesezeit ·

Stability AI: Stable Audio 3.0 mit Open-Weight-Modellen und 6-Minuten-Generierung

Redaktionelle Illustration: Stability AI Stable Audio 3 Open-Weight-Modellfamilie mit 6-Minuten-Generierung und Inpainting-Unterstützung

Stability AI veröffentlichte am 20. Mai 2026 Stable Audio 3.0 — eine Familie aus 4 Audiomodellen (Small SFX, Small, Medium, Large), von denen drei Open-Weight sind und auf Hugging Face verfügbar sind. Die wichtigste Neuerung ist die Audiogenerierung bis zu 6 Minuten (Vorgänger — 47 Sekunden), dazu Audio-Inpainting, kausale Fortsetzung und LoRA-Fine-Tuning. Alle Modelle wurden ausschließlich mit lizenzierten Daten trainiert.

🤖

Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.

Stability AI veröffentlichte am 20. Mai 2026 Stable Audio 3.0 — eine Familie aus vier generativen Audiomodellen (Small SFX, Small, Medium, Large), von denen drei Open-Weight sind und sofort auf Hugging Face verfügbar sind. Die wichtigste Änderung gegenüber früheren Versionen: Das Modell kann jetzt Audio bis zu 6 Minuten Länge generieren (Stable Audio 2 hatte ein Maximum von 47 Sekunden).

Was ermöglicht die 6-Minuten-Generierung?

Der Sprung von 47 Sekunden auf 6 Minuten eröffnet Anwendungen, für die das frühere Modell unbrauchbar war: Soundtracks für Kurzfilme, Podcast-Intro/Outro-Produktion, Spielmusik ohne Looping, Bildungsinhalte und Ambient-Audio-Kompositionen für VR/AR-Anwendungen. Die technische Grundlage ist ein neuer Diffusion Transformer mit zeitkonditionierter Attention, der strukturelle Kohärenz über lange Zeitspannen aufrechthält — bisher der Hauptgrund für „driftende” generierte Audios.

Was ist Audio-Inpainting?

Stable Audio 3 unterstützt drei Modi des Audio-Inpaintings: Einzelsegment (einen Abschnitt einer bestehenden Aufnahme ausfüllen), Mehrsegment (mehrere Abschnitte gleichzeitig) und kausale Fortsetzung (eine bestehende Aufnahme natürlich fortsetzen). Das bringt das Modell näher an das Adobe Premiere Pro- und iZotope-RX-Ökosystem — Werkzeuge für echte Audioprojekte, nicht nur einen „Text-zu-Audio”-Demonstrator.

Wie wurde das Modell trainiert und wie lautet die Lizenz?

Stability AI betont, dass alle Modelle ausschließlich mit lizenzierten Daten trainiert wurden — was das entscheidende rechtliche Hindernis offener Audiomodelle beseitigt. Das Unternehmen war in den letzten zwei Jahren mit Klagen von Getty Images und Musikverlagen konfrontiert, die genau die Verwendung geschützter Daten beim Training beanstandeten. Stable Audio 3 ist der erste Versuch, diese Einwände auszuräumen.

Die Lizenz erlaubt freie kommerzielle Nutzung für Organisationen mit einem Jahresumsatz bis zu einer Million US-Dollar. Darüber hinaus ist eine Enterprise-Lizenz erforderlich. Das Modell unterstützt LoRA-Fine-Tuning, sodass Studios Modelle an ihren eigenen Soundkatalog anpassen können, ohne von Grund auf neu zu trainieren.

Was bedeutet das für das offene KI-Audio-Ökosystem?

Wettbewerber — Meta AudioCraft, Google MusicLM, OpenAI Jukebox — sind größtenteils geschlossen oder rechtlich problematisch. Stability AI bietet mit 3 von 4 Modellen auf Hugging Face und lizenzierten Trainingsdaten einen produktionsreifen Open-Source-Weg für Audiogenerierung, den es bisher nicht gab.

Häufig gestellte Fragen

Welche Modelle sind Open-Weight?
Drei der vier Modelle — Small SFX, Small und Medium — sind mit offenen Gewichten auf Hugging Face verfügbar. Das Large-Modell ist als gehostetes API und Enterprise-Lizenz erhältlich; kleine und mittlere Modelle eignen sich für die lokale Nutzung.
Was ist Audio-Inpainting?
Audio-Inpainting bezeichnet die Fähigkeit des Modells, einen Teil einer bestehenden Audioaufnahme zu ergänzen oder zu ersetzen, statt eine neue von Grund auf zu generieren. Stable Audio 3 unterstützt Einzelsegment, Mehrsegment und kausale Fortsetzung.
Wie lautet die Lizenz?
Stable Audio 3 erlaubt freie kommerzielle Nutzung für Organisationen mit einem Jahresumsatz bis zu einer Million US-Dollar. Darüber hinaus ist eine Enterprise-Lizenz erforderlich. Alle Modelle wurden ausschließlich mit lizenzierten Daten trainiert.