Stable Audio 3: open-weight, 6 minuta, audio inpainting

Stability AI je 20. svibnja 2026. objavio Stable Audio 3.0 — obitelj od 4 audio modela (Small SFX, Small, Medium, Large) od kojih su tri open-weight i dostupna na Hugging Face-u. Glavna novost je generacija audija do 6 minuta (prethodna verzija je davala 47 sekundi), kao i podrška za audio inpainting, kauzalnu kontinuaciju i LoRA fine-tuning, uz tvrdnju da su svi modeli trenirani isključivo na licenciranim podacima.

Stability AI je 20. svibnja 2026. objavio Stable Audio 3.0 — obitelj od četiri audio generative modela (Small SFX, Small, Medium, Large) među kojima su tri open-weight i odmah dostupna na Hugging Face-u. Najvažnija promjena u odnosu na prethodne verzije: model sada može generirati audio dužine do 6 minuta (Stable Audio 2 davao je maksimalno 47 sekundi).

Što omogućuje 6-minutna generacija?

Skok s 47 sekundi na 6 minuta otvara primjene za koje je raniji model bio neupotrebljiv: soundtrackovi za kratke filmove, podcast intro/outro produkcija, glazba u igrama bez looping-a, edukacijski sadržaj i ambijentalne audio kompozicije u VR/AR aplikacijama. Tehnička osnova je novi diffusion transformer s time-conditioned attention koji održava strukturalnu koherentnost preko dugih vremenskih okvira — problem koji je dosad bio glavni razlog “drift-anja” generiranog audija.

Što je audio inpainting?

Stable Audio 3 podržava tri načina audio inpainting-a: single-segment (popuni jedan dio postojeće snimke), multi-segment (više dijelova istovremeno) i kauzalnu kontinuaciju (nastavi postojeću snimku u prirodnom slijedu). Time se model približava Adobe Premiere Pro i iZotope RX ekosustavu — alati za sastav stvarnih audio projekata, ne samo “tekst u audio” demonstrator.

Kako se model trenirao i kakva je licenca?

Stability AI naglašava da su svi modeli trenirani isključivo na licenciranim podacima — što rješava ključnu pravnu prepreku koja muči otvorene audio modele. Tvrtka je u prethodne dvije godine bila pod više tužbi od Getty Images i izdavača glazbe upravo zbog korištenja zaštićenih podataka u treningu. Stable Audio 3 je prvi pokušaj da se otklone te zamjerke.

Licenca dopušta slobodnu komercijalnu uporabu za organizacije s prihodom do milijun američkih dolara godišnje. Iznad tog praga potrebna je Enterprise licenca. Model podržava LoRA fine-tuning, što znači da studiji mogu prilagoditi modele vlastitom katalogu zvukova bez ponovnog treniranja od nule.

Što ovo znači za otvoreni AI audio ekosustav?

Konkurenti — Meta AudioCraft, Google MusicLM, OpenAI Jukebox — uglavnom su zatvoreni ili pravno problematični. Stability AI s 3 od 4 modela na Hugging Face-u i licenciranim trening podacima daje production-ready open-source put za audio generaciju koji do sada nije postojao.

Česta pitanja

Koji modeli su open-weight?

Tri od četiri modela u obitelji — Small SFX, Small i Medium — dostupni su s otvorenim težinama na Hugging Face-u. Large model je dostupan kao hosted API i kroz Enterprise licencu, dok su mali i srednji modeli pogodni za lokalnu uporabu.

Što je audio inpainting?

Audio inpainting je sposobnost modela da popuni ili zamijeni dio postojeće audio snimke umjesto generiranja nove od početka. Stable Audio 3 podržava single-segment (jedan dio), multi-segment (više dijelova) i kauzalnu kontinuaciju (nastavak postojeće snimke).

Kakva je licenca?

Stable Audio 3 dopušta slobodnu komercijalnu uporabu za organizacije s prihodom do milijun američkih dolara godišnje. Iznad tog praga potrebna je Enterprise licenca. Svi modeli su trenirani isključivo na licenciranim podacima, što rješava ključnu pravnu prepreku koja muči otvorene audio modele.

Stability AI: Stable Audio 3.0 s open-weight modelima i generacijom do 6 minuta

Što omogućuje 6-minutna generacija?

Što je audio inpainting?

Kako se model trenirao i kakva je licenca?

Što ovo znači za otvoreni AI audio ekosustav?

Česta pitanja

Izvori

Povezane vijesti