🤖 24 AI
🟡 🤖 모델 2026년 4월 16일 목요일 · 2 분 읽기

Google: Gemini 3.1 Flash TTS, 70개 이상의 언어에 표현력 있는 AI 음성 제공

왜 중요한가

Google이 Gemini 3.1 Flash TTS를 출시했습니다. 70개 이상의 언어를 지원하며 Artificial Analysis 순위에서 1,211의 Elo 점수를 달성한 새로운 텍스트 음성 변환 모델입니다. 핵심 혁신은 오디오 태그——음성, 억양, 감정을 정밀하게 제어하기 위해 텍스트에 자연어 명령을 직접 내장하는 기능입니다. 모델은 Google AI Studio, Vertex AI, Google Vids에서 이용 가능하며, AI 생성 음성 감지를 위한 SynthID 워터마킹을 지원합니다.

Google이 Gemini 3.1 Flash TTS를 발표했습니다——고품질 음성과 음성 특성에 대한 정밀한 제어를 결합한 새로운 세대의 텍스트 음성 변환 모델입니다. 모델은 Artificial Analysis TTS 순위에서 1,211의 Elo 점수를 획득하여 경쟁 솔루션 중 최상위에 위치합니다.

오디오 태그란 무엇이며, 왜 게임 체인저입니까?

Gemini 3.1 Flash TTS에서 가장 중요한 혁신은 오디오 태그——음성으로 변환될 텍스트에 자연어 명령을 직접 내장하는 기능입니다. 복잡한 SSML(음성 합성 마크업 언어) 태그나 제한적인 사전 정의 스타일 대신, 사용자는 원하는 발음 방식을 자연어로 설명할 수 있습니다.

예를 들어, 사용자는 텍스트에 “다음 문장을 끝에 극적인 일시 정지를 두고 속삭이듯이 읽어주세요”와 같은 지시를 삽입할 수 있으며, 모델은 이를 충실히 실행합니다. 이는 음성 그라디에이션을 위한 최대 6개의 밝기 구역을 지원하여, 크리에이터에게 이전에는 전문 배우와 녹음 스튜디오가 필요했던 수준의 제어권을 제공합니다.

언어 지원 범위는 어느 정도입니까?

70개 이상의 언어를 지원함으로써 Gemini 3.1 Flash TTS는 언어 커버리지 면에서 대부분의 경쟁 솔루션을 능가합니다. 모델은 다중 화자 대화를 기본으로 지원합니다——텍스트의 각기 다른 캐릭터가 화자마다 별도의 API 호출 없이 다른 음성을 가질 수 있습니다.

가상 어시스턴트부터 교육 플랫폼까지 글로벌 제품을 구축하는 개발팀에게 이는 각 시장에 별도로 통합하는 대신 하나의 모델을 의미합니다. 음성 품질은 언어 전반에 걸쳐 일관성을 유지하며, 이는 전통적으로 TTS 시스템의 과제였습니다.

SynthID는 어떻게 남용을 방지합니까?

Google은 AI 생성 음성에 감지할 수 없는 마킹을 수행하는 기술인 SynthID 워터마킹을 모델에 내장했습니다. 생성된 모든 오디오 콘텐츠는 음질에 영향을 미치지 않으면서 해당 콘텐츠가 인공지능에 의해 생성되었음을 사후 감지할 수 있는 디지털 마크를 지닙니다.

이는 딥페이크 오디오 콘텐츠와 음성 사기에 대한 증가하는 우려에 대한 대응입니다. SynthID는 생성을 방지하지 않지만 진정성 검증을 가능하게 합니다——플랫폼, 규제 기관, 언론인에게 중요한 도구입니다.

모델은 실험을 위해 Google AI Studio에서, 프로덕션 사용을 위해 Vertex AI에서, AI 내레이터를 사용한 비디오 콘텐츠 제작을 위해 Google Vids에서 이용할 수 있습니다.

🤖

이 기사는 AI가 1차 출처를 기반으로 생성했습니다.