OpenAI: drei neue Realtime-Sprachmodelle in der API mit Reasoning und Übersetzung
OpenAI stellte am 7. Mai 2026 drei neue Realtime-Sprachmodelle in der API vor: GPT-Realtime-2 mit GPT-5-class-Reasoning und einem Kontext von 128.000 Tokens, GPT-Realtime-Translate, das aus 70+ Eingangssprachen in 13 Ausgangssprachen übersetzt, sowie GPT-Realtime-Whisper für die Live-Sprachtranskription.
Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.
OpenAI stellte am 7. Mai 2026 eine neue Generation von Realtime-Sprachmodellen in der API vor und eröffnete damit eine Klasse von Sprachanwendungen, die gleichzeitig schlussfolgern, übersetzen und transkribieren, während der Nutzer spricht. Es handelt sich um drei separate Modelle, die gemeinsam den Sprach-Stack für Enterprise-Sprachagenten abdecken.
Was bringt GPT-Realtime-2 Neues?
GPT-Realtime-2 ist das erste OpenAI-Sprachmodell mit GPT-5-class-Reasoning und in der Lage, anspruchsvolle Anfragen zu bearbeiten und natürliche Gespräche zu führen. Das Kontextfenster wurde von 32.000 auf 128.000 Tokens erweitert, was längere Sitzungen und komplexere Anweisungen innerhalb eines einzigen Anrufs ermöglicht. Das Modell bietet einstellbare Reasoning-Stufen von minimal bis extra-high, sodass Entwicklungsteams Latenz und kognitive Tiefe ausbalancieren können. Im Big-Bench-Audio-Benchmark für Audio-Intelligenz erzielt GPT-Realtime-2 (high) ein 15,2 % besseres Ergebnis als das vorherige GPT-Realtime-1.5, während die xhigh-Variante 1.5 beim Audio-MultiChallenge-Test zur Anweisungsbefolgung um 13,8 % übertrifft.
Wie funktionieren die Translate- und Whisper-Modelle?
GPT-Realtime-Translate übersetzt aus 70+ Eingangssprachen in 13 Ausgangssprachen, dem Sprechtempo in Echtzeit folgend, was es für Szenarien wie multinationale Besprechungen und grenzüberschreitenden Kundensupport positioniert. GPT-Realtime-Whisper ist ein Streaming-Speech-to-Text, das Sprache live transkribiert, während der Nutzer spricht, und für Anwendungen gedacht ist, die sofortige Textausgabe bei minimaler Latenz benötigen. Beide Modelle sind vom Haupt-GPT-Realtime-2 getrennt, was Entwicklungsteams die Freiheit gibt, Funktionen zu kombinieren oder zu trennen.
Wie sieht das Preismodell aus?
GPT-Realtime-2 kostet 32 $ pro Million Audio-Eingabe-Tokens, mit 0,40 $ für gecachte Eingabe-Tokens, sowie 64 $ pro Million Audio-Ausgabe-Tokens. Der gecachte Preis entspricht einer 80-fachen Reduzierung für wiederholte Kontexte und macht längere Sitzungen wirtschaftlich tragfähig. GPT-Realtime-Translate wird pro Minute berechnet und kostet 0,034 $/min, während GPT-Realtime-Whisper auf 0,017 $/min angesetzt ist. Dies drängt OpenAI direkt in den Markt der Enterprise-Sprachagenten, wo die Realtime-API bisher durch einen kürzeren Kontext und ein niedrigeres Reasoning-Niveau begrenzt war.
Häufig gestellte Fragen
- Was ist neu bei GPT-Realtime-2?
- Es ist das erste Sprachmodell mit GPT-5-class-Reasoning, einem auf 128.000 Tokens erweiterten Kontext und einstellbaren Reasoning-Stufen von minimal bis extra-high.
- Wie viele Sprachen unterstützt GPT-Realtime-Translate?
- Es übersetzt aus 70+ Eingangssprachen in 13 Ausgangssprachen, in Echtzeit und im Sprechtempo des Nutzers.
- Was kosten die neuen Modelle?
- GPT-Realtime-2: 32 $ pro 1 Mio. Audio-Eingabe-Tokens (0,40 $ für gecachte) und 64 $ pro 1 Mio. Ausgabe. Translate 0,034 $/min, Whisper 0,017 $/min.
Verwandte Nachrichten
Allen Institute: EMO — MoE-Sprachmodell mit natürlicher semantischer Modularität aus Daten
Google: Gemini 3.1 Flash-Lite wird allgemein verfügbar
arXiv:2605.03195: Terminus-4B — 4 Milliarden Parameter für Terminal-Execution auf Augenhöhe mit Claude Opus und GPT-5.3-Codex bei SWE-Bench Pro mit ~30 % weniger Haupt-Agent-Token