Sind GPT OSS-Modelle identisch mit ChatGPT oder GPT-4?

Nein. GPT OSS sind OpenAIs Open-Weight-Modelle für den Einsatz außerhalb der OpenAI-Infrastruktur — gpt-oss-120b und gpt-oss-20b sind nicht identisch mit GPT-4 oder ChatGPT-Modellen.

Was bedeutet das Zero-Operator-Access-Design in GovCloud?

Niemand — weder AWS, noch der Kunde, noch der Modellanbieter — kann auf Prompts oder Antworten zugreifen, die durch die Bedrock-Inference-Engine in der GovCloud-Region laufen.

Welchen API-Standard unterstützt der bedrock-mantle-Endpunkt?

Bedrock-Mantle implementiert die OpenAI Chat Completions und Responses API, sodass Code für das OpenAI Python- oder TypeScript-SDK ohne Änderungen funktioniert — nur die Endpunkt-URL muss angepasst werden.

Nemotron und GPT OSS in AWS GovCloud: FedRAMP High-Zertifikat

AWS GovCloud (US) erhält sechs neue Modelle auf Amazon Bedrock: OpenAI Open-Weight-Modelle gpt-oss-120b und gpt-oss-20b sowie vier NVIDIA Nemotron-Modelle mit 1-Millionen-Token-Kontext. Die Infrastruktur erfüllt FedRAMP High, DoD IL 2/4/5, ITAR und CJIS mit Zero-Operator-Access-Design.

Amazon Web Services hat das Modellangebot auf Amazon Bedrock in der Region AWS GovCloud (US) um sechs neue Modelle erweitert, die eine Bandbreite von kleinen, spezialisierten bis hin zu großen Allzwecksystemen abdecken — allesamt mit den Infrastrukturgarantien, die der amerikanische öffentliche Sektor verlangt.

Welche Modelle sind verfügbar?

Die OpenAI GPT OSS-Serie bringt zwei Modelle. gpt-oss-120b ist ein Modell mit 120 Milliarden Parametern für Produktions-, Allzweck- und anspruchsvolle Reasoning-Aufgaben, mit einem Kontextfenster von 128k Tokens und einer Ausgabe bis zu 16k Tokens. gpt-oss-20b ist eine kompaktere Variante, optimiert für geringe Latenz und spezialisierte Anwendungen. Wichtig: Diese Modelle sind nicht GPT-4 oder ChatGPT — es handelt sich um OpenAIs Open-Weight-Modelle für unabhängigen Einsatz.

Die NVIDIA Nemotron-Serie bringt vier Modelle. Nemotron 3 Super 120B ist eine hybride Mixture-of-Experts-Architektur: insgesamt 120 Milliarden Parameter, aber bei jedem Token werden nur 12 Milliarden aktiviert — was Modellkapazität und Recheneffizienz ausbalanciert. Das kritische Merkmal ist das 1-Millionen-Token-Kontextfenster, das Agenten ermöglicht, gesamte Rechtskorpora, technische Handbücher oder langfristige Gesprächsarchive ohne Kontextkürzung zu verarbeiten. Nano-Varianten (9B v2, 12B v2, 30B) decken leichte Aufgaben und Edge-Deployment-Szenarien ab.

Was GovCloud unterscheidet

AWS GovCloud (US) ist nicht nur eine physisch getrennte Region — es handelt sich um eine isolierte Infrastruktur, die spezifische regulatorische Anforderungen des amerikanischen öffentlichen Sektors erfüllt.

Der von dieser Integration abgedeckte Zertifizierungssatz umfasst: FedRAMP High mit Provisional Authority to Operate (P-ATO), die höchste Stufe der föderalen Cloud-Autorisierung; DoD Cloud Security Requirements Guide Impact Levels 2, 4 und 5 für kontrollierte Geheimnisse und kritische nationale Sicherheitssysteme; ITAR (International Traffic in Arms Regulations) für die Verteidigungsindustrie; sowie CJIS (Criminal Justice Information Services) für Strafverfolgungsbehörden.

Zero-Operator-Access

Die zentrale Architekturanforderung für solche Umgebungen ist garantierte Privatsphäre von Inferenzanfragen. AWS’s Zero-Operator-Access-Design bedeutet, dass die Inference-Engine keine zugänglichen Spuren von Prompts oder Antworten hinterlässt — niemand, einschließlich AWS-Ingenieuren, Kunden oder Modellanbietern (OpenAI oder NVIDIA), kann den Gesprächsinhalt rekonstruieren.

Diese Garantie gilt unabhängig vom gewählten Preisniveau oder API-Pfad.

Doppelte API

Warum gibt es zwei Pfade?

Bedrock in GovCloud bietet zwei Kommunikationswege mit Modellen, jeder mit unterschiedlichen Kompromissen.

bedrock-mantle ist ein OpenAI-kompatibler HTTPS-Endpunkt, der Chat Completions und Responses API implementiert. Code, der bereits für das OpenAI Python- oder TypeScript-SDK geschrieben wurde, funktioniert ohne Änderungen — die einzige Änderung ist die Endpunkt-URL. Tool-Calling und Streaming werden unterstützt, sodass die Migration von auf dem OpenAI-Ökosystem aufgebauten Agenten keine Architekturänderungen erfordert.

bedrock-runtime ist der native AWS SDK-Pfad, der Zugriff auf Bedrock-spezifische Funktionen bietet: Guardrails für Content-Filterung und Sicherheitsrichtlinien sowie die Converse API, die die Schnittstelle zu allen Bedrock-Modellen durch einen einheitlichen Aufruf unabhängig vom Anbieter normalisiert.

Preisstufen und Datenresidenz

Modelle sind in drei Stufen verfügbar: Standard (On-Demand, Token-basierte Abrechnung), Priority (für latenzempfindlichen Traffic) und Flex (Batch-Verarbeitung mit niedrigeren Kosten). Die Reserved-Stufe ist derzeit in GovCloud-Regionen nicht verfügbar.

Die Datenresidenz bietet zwei Optionen. In-Region-Routing hält alle Anfragen innerhalb von us-gov-west-1. Geo Cross-Region-Routing kann zwischen us-gov-west-1 und us-gov-east-1 für Verfügbarkeit weiterleiten, aber ausschließlich innerhalb der AWS GovCloud-Grenze — Daten verlassen niemals den GovCloud-Perimeter.

Kontext für den öffentlichen Sektor

Die Verfügbarkeit von Modellen wie Nemotron 3 Super 120B mit 1-Millionen-Token-Kontextfenster in einer FedRAMP High-Umgebung ist besonders relevant für Szenarien wie die Analyse langer Dokumente, medizinischer Akten oder langer Gesprächsgedächtnisse in sicherheitsempfindlichen Anwendungen — Anwendungsfälle, bei denen die bisherige Kontextbeschränkung kein technisches, sondern ein regulatorisches Hindernis war, da zertifizierte Modelle fehlten.

NVIDIA Nemotron und OpenAI GPT OSS-Modelle in AWS GovCloud mit FedRAMP High-Zertifikat verfügbar