OpenAI: tri nova realtime voice modela u API-ju

OpenAI je 7. svibnja 2026. predstavio tri nova realtime voice modela u API-ju: GPT-Realtime-2 s GPT-5-class rezoniranjem i kontekstom od 128 000 tokena, GPT-Realtime-Translate koji prevodi sa 70+ ulaznih u 13 izlaznih jezika, te GPT-Realtime-Whisper za live transkripciju govora.

OpenAI je 7. svibnja 2026. predstavio novu generaciju realtime voice modela u API-ju, otvarajući klasu glasovnih aplikacija koje istovremeno rezoniraju, prevode i transkribiraju dok korisnik govori. Riječ je o tri odvojena modela koja zajedno pokrivaju glasovni stack za enterprise voice agente.

Što GPT-Realtime-2 donosi novo?

GPT-Realtime-2 prvi je OpenAI voice model s GPT-5-class razinom rezoniranja i sposoban je nositi se s težim zahtjevima i prirodno voditi razgovor. Kontekstni prozor proširen je s 32 000 na 128 000 tokena, što omogućuje dulje sesije i kompleksnije instrukcije unutar jednog poziva. Model nudi podesive razine rezoniranja od minimal do extra-high, čime razvojni timovi mogu balansirati latenciju i kognitivnu dubinu. Na Big Bench Audio benchmarku za audio inteligenciju, GPT-Realtime-2 (high) postiže 15,2% bolji rezultat od prethodnog GPT-Realtime-1.5, dok xhigh varijanta nadmašuje 1.5 za 13,8% na Audio MultiChallenge testu praćenja instrukcija.

Kako rade Translate i Whisper modeli?

GPT-Realtime-Translate prevodi sa 70+ ulaznih jezika u 13 izlaznih, prateći tempo govornika u stvarnom vremenu, što ga pozicionira za scenarije poput multinacionalnih sastanaka i podrške korisnicima preko granica. GPT-Realtime-Whisper streaming je speech-to-text koji transkribira govor uživo dok korisnik govori, namijenjen aplikacijama koje trebaju trenutni tekstualni izlaz uz minimalnu latenciju. Oba modela odvojeni su od glavnog GPT-Realtime-2, što daje razvojnim timovima slobodu da kombiniraju ili odvajaju funkcionalnosti.

Kakav je cjenovni model?

GPT-Realtime-2 košta $32 po milijun ulaznih audio tokena, uz $0,40 za cached input tokene, te $64 po milijun izlaznih audio tokena. Cached cijena predstavlja 80× snižavanje za ponovljene kontekste i čini dulje sesije ekonomski održivima. GPT-Realtime-Translate naplaćuje se po minuti i košta $0,034/min, dok je GPT-Realtime-Whisper postavljen na $0,017/min. Ovo gura OpenAI direktno u tržište enterprise voice agenata, gdje je do sada Realtime API bio ograničen kraćim kontekstom i nižom razinom rezoniranja.

Česta pitanja

Što je novo u GPT-Realtime-2?

Prvi je voice model s GPT-5-class rezoniranjem, kontekstom proširenim s 32 000 na 128 000 tokena i podesivim razinama rezoniranja od minimal do extra-high.

Koliko jezika podržava GPT-Realtime-Translate?

Prevodi sa 70+ ulaznih jezika u 13 izlaznih jezika, u stvarnom vremenu i prateći tempo govornika.

Koliko košta korištenje novih modela?

GPT-Realtime-2: $32 za 1M ulaznih audio tokena ($0,40 za cached) i $64 za 1M izlaznih. Translate $0,034/min, Whisper $0,017/min.

OpenAI: tri nova realtime voice modela u API-ju s rezoniranjem i prevođenjem

Što GPT-Realtime-2 donosi novo?

Kako rade Translate i Whisper modeli?

Kakav je cjenovni model?

Česta pitanja

Izvori

Povezane vijesti