🟡 🏥 In der Praxis Veröffentlicht: · 2 Min. Lesezeit ·

AWS: SageMaker AI erhält OpenAI-kompatible API-Endpunkte

Redaktionelle Illustration: AWS SageMaker AI OpenAI-kompatible API-Endpunkte als Drop-in-Ersatz auf eigener GPU-Infrastruktur

AWS kündigte am 20. Mai 2026 an, dass Amazon SageMaker AI nun einen OpenAI-kompatiblen API auf seinen Echtzeit-Inferenz-Endpunkten bereitstellt — ein Drop-in-Ersatz für das OpenAI SDK, LangChain und Strands Agents, der nur eine URL-Änderung erfordert. Endpunkte stellen den /openai/v1-Pfad mit Chat Completions und Streaming bereit; die Authentifizierung nutzt zeitlich begrenzte Bearer-Token aus AWS-Credentials.

🤖

Dieser Artikel wurde mithilfe von künstlicher Intelligenz aus Primärquellen erstellt.

AWS gab am 20. Mai 2026 bekannt, dass Amazon SageMaker AI nun einen OpenAI-kompatiblen API auf seinen Echtzeit-Inferenz-Endpunkten bereitstellt. Anwendungen, die für das OpenAI Python SDK, LangChain, AWS Strands Agents oder jede andere OpenAI-API-kompatible Bibliothek geschrieben wurden, können auf SageMaker wechseln — ohne Codeänderungen, nur durch Anpassen von base_url und API-Schlüssel.

Was stellt der Endpunkt bereit?

Endpunkte stellen den /openai/v1-Pfad mit Unterstützung für Chat Completions und Streaming bereit. Das URL-Format lautet:

https://runtime.sagemaker.REGION.amazonaws.com/endpoints/ENDPOINT_NAME/openai/v1

Alle Standard-OpenAI-SDK-Funktionen (client.chat.completions.create, Streaming via stream=True) funktionieren identisch wie beim öffentlichen OpenAI-API. Das bedeutet, dass die LangChain-ChatOpenAI-Klasse, AWS Strands Agents, das LlamaIndex-OpenAI-Modul und alle anderen Bibliotheken, die den OpenAI-Client verwenden, einen Drop-in-Ersatz auf eigener Infrastruktur erhalten.

Wie funktioniert die Authentifizierung?

Die Authentifizierung nutzt zeitlich begrenzte Bearer-Token, die über das SageMaker Python SDK aus AWS-Credentials generiert werden. Token gelten bis zu 12 Stunden und werden als clientseitige SigV4-Pre-Signed-URLs ohne zusätzlichen Netzwerkaufruf generiert — was den Overhead gegenüber einem direkten OpenAI-API-Schlüssel praktisch eliminiert.

Was ist die strategische Implikation?

Dieser Schritt konsolidiert den OpenAI-API-Standard als de-facto portables Interface für LLM-Tooling. AWS erkennt damit an, dass es für das Entwickler-Ökosystem einfacher ist, für ein API zu schreiben und es auf verschiedenen Backends zu betreiben, als ein eigenes SDK durchzusetzen. Ähnliches tat AWS vor mehr als einem Jahrzehnt mit dem S3-API, der zum Standard wurde, den MinIO, Cloudflare R2, Wasabi und andere übernehmen.

Für Enterprise-Kunden eröffnet sich ein ernsthafter Weg: Eine in der Proof-of-Concept-Phase auf OpenAI entwickelte Anwendung kann auf eigene SageMaker-Infrastruktur mit DeepSeek V3, Llama 4, Mistral Large oder anderen Open-Source-Modellen migriert werden — ohne Refactoring. Inferenzkosten werden planbar (stündliche GPU-Reservierung statt Token-basierter API-Abrechnung), und Daten verbleiben im eigenen AWS-Konto.

Was kommt als Nächstes?

Unterstützung für OpenAI Embeddings und OpenAI Vision API wurde in dieser Ankündigung nicht explizit erwähnt, ist laut AWS-Dokumentation aber im Roadmap. Multi-Model-Inferenzkomponenten funktionieren bereits, sodass Teams dieselbe OpenAI-kompatible Logik über mehrere Modelle auf demselben Endpunkt skalieren können.

Häufig gestellte Fragen

Wie funktioniert der Wechsel von OpenAI zu SageMaker konkret?
Der Entwickler ändert nur base_url und API-Schlüssel — Code, der das OpenAI SDK (Python, Node.js, JavaScript) nutzt, bleibt identisch. Das URL-Format ist https://runtime.sagemaker.REGION.amazonaws.com/endpoints/NAME/openai/v1; der API-Schlüssel ist ein Bearer-Token aus AWS-Credentials.
Was ändert sich bei der Authentifizierung?
Bearer-Token gelten bis zu 12 Stunden und werden über das SageMaker Python SDK als clientseitige SigV4-Pre-Signed-URLs generiert — ohne zusätzlichen Netzwerkaufruf. Das bedeutet praktisch null Overhead gegenüber einem direkten OpenAI-API-Schlüssel.
Welche Modelle und Deployment-Optionen werden unterstützt?
Das API unterstützt alle bestehenden SageMaker-Echtzeit-Inferenz-Endpunkte — Single-Model- und Multi-Model-Deployments über Inferenzkomponenten. Jedes auf SageMaker deployte Open-Source-Modell (Llama, Mistral, Qwen, DeepSeek) erhält automatisch einen OpenAI-kompatiblen Layer.