Stable Audio 3: 개방 가중치·6분 생성·오디오 인페인팅 세 가지 주요 업그레이드

Stability AI는 2026년 5월 20일 Stable Audio 3.0을 출시했습니다. 4개의 오디오 모델(Small SFX, Small, Medium, Large) 시리즈로, 이 중 3개는 개방 가중치이며 Hugging Face에서 바로 이용 가능합니다. 가장 큰 변화는 최대 6분 오디오 생성(이전 버전은 47초), 오디오 인페인팅, 인과적 연속, LoRA 파인튜닝 지원이며, 모든 모델이 라이선스 데이터로만 학습됐다고 밝혔습니다.

Stability AI는 2026년 5월 20일 Stable Audio 3.0을 출시했습니다. 4개의 생성형 오디오 모델(Small SFX, Small, Medium, Large)로 구성된 시리즈로, 3개가 개방 가중치이며 즉시 Hugging Face에서 이용 가능합니다. 이전 버전 대비 가장 중요한 변화는 모델이 이제 최대 6분 오디오를 생성할 수 있다는 점입니다(Stable Audio 2는 최대 47초).

6분 생성은 무엇을 가능하게 하는가?

47초에서 6분으로의 도약은 이전 모델로는 불가능했던 활용 사례를 열어줍니다. 단편 영화 사운드트랙, 팟캐스트 인트로/아웃트로 제작, 루핑 없는 게임 음악, 교육 콘텐츠, VR/AR 애플리케이션의 앰비언트 오디오 작곡이 여기에 해당합니다. 기술적 기반은 시간 조건부 어텐션을 갖춘 새로운 확산 트랜스포머로, 긴 시간 구간에 걸쳐 구조적 일관성을 유지합니다——이는 생성 오디오가 「드리프트」하는 주요 원인이었습니다.

오디오 인페인팅이란?

Stable Audio 3은 세 가지 오디오 인페인팅 방식을 지원합니다. 단일 세그먼트(기존 녹음의 한 부분 채우기), 다중 세그먼트(여러 부분 동시에), 인과적 연속(기존 녹음을 자연스러운 흐름으로 이어가기)입니다. 이를 통해 모델은 단순한 「텍스트→오디오」 데모를 넘어 실제 오디오 프로젝트 제작 도구인 Adobe Premiere Pro 및 iZotope RX 생태계에 가까워집니다.

모델 학습과 라이선스는?

Stability AI는 모든 모델이 라이선스 데이터로만 학습됐다고 강조합니다——이는 개방 오디오 모델을 괴롭혀 온 핵심 법적 장벽을 해소합니다. 회사는 지난 2년간 훈련 데이터에 보호 데이터를 사용했다는 이유로 Getty Images 및 음악 출판사들로부터 여러 건의 소송을 받았습니다. Stable Audio 3는 이러한 우려를 해소하려는 첫 시도입니다.

라이선스는 연 매출 100만 달러 이하 조직에 무료 상업적 사용을 허용합니다. 이를 초과하면 엔터프라이즈 라이선스가 필요합니다. 모델은 LoRA 파인튜닝을 지원하여 스튜디오가 처음부터 재학습하지 않고 자체 음향 카탈로그에 맞게 커스터마이징할 수 있습니다.

개방 AI 오디오 생태계에 어떤 의미가 있는가?

경쟁사——Meta AudioCraft, Google MusicLM, OpenAI Jukebox——는 대부분 폐쇄적이거나 법적으로 문제가 있습니다. Stability AI가 4개 모델 중 3개를 Hugging Face에서 공개하고 라이선스 훈련 데이터를 사용함으로써, 지금까지 존재하지 않았던 오디오 생성을 위한 프로덕션 레디 오픈소스 경로가 열렸습니다.

자주 묻는 질문

어떤 모델이 개방 가중치입니까?

시리즈의 4개 모델 중 3개——Small SFX, Small, Medium——이 Hugging Face에서 개방 가중치로 제공됩니다. Large 모델은 호스팅 API 및 엔터프라이즈 라이선스로 제공되며, 소형 및 중형 모델은 로컬 사용에 적합합니다.

오디오 인페인팅이란 무엇입니까?

오디오 인페인팅은 처음부터 새로 생성하는 대신 기존 녹음의 일부를 채우거나 교체하는 모델의 능력입니다. Stable Audio 3은 단일 세그먼트(한 부분), 다중 세그먼트(여러 부분), 인과적 연속(기존 녹음의 자연스러운 연장) 세 가지 방식을 지원합니다.

라이선스 조건은 어떻게 됩니까?

Stable Audio 3은 연 매출 100만 달러 이하 조직에 무료 상업적 사용을 허용합니다. 이를 초과하면 엔터프라이즈 라이선스가 필요합니다. 모든 모델이 라이선스 데이터로만 학습되어 개방 오디오 모델을 괴롭혀 온 핵심 법적 장벽을 해소했습니다.

Stability AI: Stable Audio 3.0, 개방 가중치 모델과 최대 6분 생성 지원 출시

6분 생성은 무엇을 가능하게 하는가?

오디오 인페인팅이란?

모델 학습과 라이선스는?

개방 AI 오디오 생태계에 어떤 의미가 있는가?

자주 묻는 질문

출처

관련 뉴스