OpenAI: 추론 및 번역 기능을 갖춘 세 가지 새로운 실시간 음성 모델 API 출시
OpenAI는 2026년 5월 7일 API에 세 가지 새로운 실시간 음성 모델을 발표했습니다. GPT-Realtime-2는 GPT-5급 추론과 128,000 토큰 컨텍스트를 갖추고, GPT-Realtime-Translate는 70개 이상의 입력 언어에서 13개 출력 언어로 실시간 번역하며, GPT-Realtime-Whisper는 라이브 음성 전사를 제공합니다.
이 기사는 AI가 1차 출처를 기반으로 생성했습니다.
OpenAI는 2026년 5월 7일 API에 새 세대 실시간 음성 모델을 발표했습니다. 사용자가 말하는 동안 실시간으로 추론, 번역, 전사를 동시에 수행하는 음성 애플리케이션의 새로운 클래스가 열립니다. 세 가지 독립된 모델이 함께 엔터프라이즈 음성 에이전트를 위한 완전한 음성 스택을 구성합니다.
GPT-Realtime-2는 무엇을 새롭게 제공합니까?
GPT-Realtime-2는 OpenAI 최초의 GPT-5급 추론 능력을 갖춘 음성 모델로, 더 어려운 요청을 처리하고 자연스러운 대화를 이끌 수 있습니다. 컨텍스트 창이 32,000에서 128,000 토큰으로 확장되어 더 긴 세션과 단일 호출 내에서 더 복잡한 지시가 가능합니다. 최소에서 초고까지 조절 가능한 추론 수준을 제공해 개발팀이 지연 시간과 인지 깊이를 균형 있게 조절할 수 있습니다. 오디오 인텔리전스 벤치마크 Big Bench Audio에서 GPT-Realtime-2(고급)는 이전 세대 GPT-Realtime-1.5 대비 15.2% 우수한 결과를 달성했으며, 초고급 변형은 Audio MultiChallenge 지시 따르기 테스트에서 1.5를 13.8% 앞섰습니다.
Translate와 Whisper 모델은 어떻게 작동합니까?
GPT-Realtime-Translate는 70개 이상의 입력 언어에서 13개의 출력 언어로 화자의 속도에 맞춰 실시간으로 번역하며, 다국적 회의 및 국경을 넘는 고객 지원 시나리오에 적합합니다. GPT-Realtime-Whisper는 스트리밍 음성-텍스트 변환 모델로 사용자가 말하는 동안 실시간으로 전사하며, 최소한의 지연으로 즉각적인 텍스트 출력이 필요한 애플리케이션을 위해 설계되었습니다. 두 모델 모두 GPT-Realtime-2와 독립적이어서 개발팀이 기능을 자유롭게 조합하거나 분리할 수 있습니다.
가격 모델은 어떻게 됩니까?
GPT-Realtime-2는 입력 오디오 100만 토큰당 32달러이며, 캐시된 입력 토큰은 0.40달러, 출력 오디오 100만 토큰당 64달러입니다. 캐시 가격은 반복 컨텍스트에 대해 80배 할인을 나타내며 긴 세션을 경제적으로 실현 가능하게 합니다. GPT-Realtime-Translate는 분 단위로 청구되어 분당 0.034달러이고, GPT-Realtime-Whisper는 분당 0.017달러입니다. 이를 통해 OpenAI는 엔터프라이즈 음성 에이전트 시장에 직접 진입하게 됩니다. 이전에는 Realtime API가 짧은 컨텍스트와 낮은 추론 능력으로 제한되어 있었습니다.
자주 묻는 질문
- GPT-Realtime-2의 새로운 기능은 무엇입니까?
- GPT-5급 추론 능력을 갖춘 최초의 음성 모델로, 컨텍스트가 32,000에서 128,000 토큰으로 확장되었으며 최소에서 초고까지 조절 가능한 추론 수준을 제공합니다.
- GPT-Realtime-Translate는 몇 개 언어를 지원합니까?
- 70개 이상의 입력 언어에서 13개의 출력 언어로 실시간으로 번역하며 화자의 속도를 따라갑니다.
- 새 모델 사용 비용은 얼마입니까?
- GPT-Realtime-2: 입력 오디오 100만 토큰당 32달러(캐시 입력 0.40달러), 출력 100만 토큰당 64달러. Translate 분당 0.034달러, Whisper 분당 0.017달러입니다.