OpenAI: tri nova realtime voice modela u API-ju s rezoniranjem i prevođenjem
OpenAI je 7. svibnja 2026. predstavio tri nova realtime voice modela u API-ju: GPT-Realtime-2 s GPT-5-class rezoniranjem i kontekstom od 128 000 tokena, GPT-Realtime-Translate koji prevodi sa 70+ ulaznih u 13 izlaznih jezika, te GPT-Realtime-Whisper za live transkripciju govora.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
OpenAI je 7. svibnja 2026. predstavio novu generaciju realtime voice modela u API-ju, otvarajući klasu glasovnih aplikacija koje istovremeno rezoniraju, prevode i transkribiraju dok korisnik govori. Riječ je o tri odvojena modela koja zajedno pokrivaju glasovni stack za enterprise voice agente.
Što GPT-Realtime-2 donosi novo?
GPT-Realtime-2 prvi je OpenAI voice model s GPT-5-class razinom rezoniranja i sposoban je nositi se s težim zahtjevima i prirodno voditi razgovor. Kontekstni prozor proširen je s 32 000 na 128 000 tokena, što omogućuje dulje sesije i kompleksnije instrukcije unutar jednog poziva. Model nudi podesive razine rezoniranja od minimal do extra-high, čime razvojni timovi mogu balansirati latenciju i kognitivnu dubinu. Na Big Bench Audio benchmarku za audio inteligenciju, GPT-Realtime-2 (high) postiže 15,2% bolji rezultat od prethodnog GPT-Realtime-1.5, dok xhigh varijanta nadmašuje 1.5 za 13,8% na Audio MultiChallenge testu praćenja instrukcija.
Kako rade Translate i Whisper modeli?
GPT-Realtime-Translate prevodi sa 70+ ulaznih jezika u 13 izlaznih, prateći tempo govornika u stvarnom vremenu, što ga pozicionira za scenarije poput multinacionalnih sastanaka i podrške korisnicima preko granica. GPT-Realtime-Whisper streaming je speech-to-text koji transkribira govor uživo dok korisnik govori, namijenjen aplikacijama koje trebaju trenutni tekstualni izlaz uz minimalnu latenciju. Oba modela odvojeni su od glavnog GPT-Realtime-2, što daje razvojnim timovima slobodu da kombiniraju ili odvajaju funkcionalnosti.
Kakav je cjenovni model?
GPT-Realtime-2 košta $32 po milijun ulaznih audio tokena, uz $0,40 za cached input tokene, te $64 po milijun izlaznih audio tokena. Cached cijena predstavlja 80× snižavanje za ponovljene kontekste i čini dulje sesije ekonomski održivima. GPT-Realtime-Translate naplaćuje se po minuti i košta $0,034/min, dok je GPT-Realtime-Whisper postavljen na $0,017/min. Ovo gura OpenAI direktno u tržište enterprise voice agenata, gdje je do sada Realtime API bio ograničen kraćim kontekstom i nižom razinom rezoniranja.
Česta pitanja
- Što je novo u GPT-Realtime-2?
- Prvi je voice model s GPT-5-class rezoniranjem, kontekstom proširenim s 32 000 na 128 000 tokena i podesivim razinama rezoniranja od minimal do extra-high.
- Koliko jezika podržava GPT-Realtime-Translate?
- Prevodi sa 70+ ulaznih jezika u 13 izlaznih jezika, u stvarnom vremenu i prateći tempo govornika.
- Koliko košta korištenje novih modela?
- GPT-Realtime-2: $32 za 1M ulaznih audio tokena ($0,40 za cached) i $64 za 1M izlaznih. Translate $0,034/min, Whisper $0,017/min.
Povezane vijesti
Allen Institute: EMO — MoE jezični model s prirodnom semantičkom modularnošću iz podataka
Google: Gemini 3.1 Flash-Lite ulazi u opću dostupnost
arXiv:2605.03195: Terminus-4B — 4 milijarde parametara za terminal execution izjednačava Claude Opus i GPT-5.3-Codex na SWE-Bench Pro uz ~30 % niže tokene glavnog agenta