🟡 🏥 U praksi Objavljeno: · 2 min čitanja ·

AWS: SageMaker AI dobiva OpenAI-kompatibilne API endpointe

Editorial illustration: AWS SageMaker AI OpenAI-kompatibilni API endpointi za drop-in zamjenu na vlastitoj GPU infrastrukturi

AWS je 20. svibnja 2026. najavio da Amazon SageMaker AI od sada izlaže OpenAI-kompatibilni API na real-time inference endpointima — drop-in zamjena za OpenAI SDK, LangChain i Strands Agents koja zahtijeva samo promjenu URL-a. Endpointi izlažu /openai/v1 putanju s podrškom za Chat Completions i streaming, dok autentikacija koristi vremenski ograničene bearer tokene generirane iz AWS credentialsa.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.

AWS je 20. svibnja 2026. najavio da Amazon SageMaker AI od sada izlaže OpenAI-kompatibilni API na svojim real-time inference endpointima. Aplikacije pisane za OpenAI Python SDK, LangChain, AWS Strands Agents ili bilo koju OpenAI-API kompatibilnu biblioteku mogu se prebaciti na SageMaker bez promjene koda — samo promjenom base_url-a i API ključa.

Što endpoint izlaže?

Endpointi izlažu /openai/v1 putanju s podrškom za Chat Completions i streaming. URL format je:

https://runtime.sagemaker.REGION.amazonaws.com/endpoints/ENDPOINT_NAME/openai/v1

Sve standardne OpenAI SDK funkcije (client.chat.completions.create, streaming kroz stream=True) rade identično kao prema OpenAI-jevom javnom API-ju. To znači da LangChain ChatOpenAI klasa, AWS Strands Agents, LlamaIndex OpenAI module i bilo koje druge biblioteke koje rade kroz OpenAI klijent dobivaju drop-in zamjenu za vlastitu infrastrukturu.

Kako funkcionira autentikacija?

Autentikacija koristi vremenski ograničene bearer tokene koji se generiraju iz AWS credentialsa kroz SageMaker Python SDK. Tokeni traju do 12 sati i generiraju se kao klijentski-side SigV4 pre-signed URL-ovi, bez dodatnog mrežnog poziva u trenutku autentikacije — što praktički eliminira overhead u odnosu na direktan OpenAI API key.

Koja je strateška implikacija?

Ovaj potez konsolidira OpenAI API standard kao de-facto portable interface za LLM tooling. AWS time priznaje da je razvojnu ekosustavu jednostavnije pisati za jedan API i puštati ga na različitim podlogama nego forsirati vlastiti SDK. Slično je AWS učinio s S3 API-jem prije više od desetljeća, što je postao standard koji koriste MinIO, Cloudflare R2, Wasabi i drugi.

Za enterprise korisnike otvara se ozbiljan put: aplikacija razvijena na OpenAI-ju u proof-of-concept fazi može se preseliti na vlastitu SageMaker infrastrukturu s DeepSeek V3, Llama 4, Mistral Large ili drugim open-source modelima — bez dodatnog refactoring-a. Trošak inferencije postaje predvidljiv (per-hour GPU rezerva umjesto per-token API plaćanja), a podaci ostaju unutar vlastite AWS organizacije.

Što slijedi?

Podrška za OpenAI Embeddings i OpenAI Vision API-jeve nije eksplicitno najavljena u ovoj objavi, ali AWS u dokumentaciji sugerira da je u roadmapu. Multi-model inference components već rade pa će timovi moći skalirati istu OpenAI-kompatibilnu logiku preko više modela na istom endpointu.

Česta pitanja

Kako se konkretno prebacuje iz OpenAI na SageMaker?
Razvojnik mijenja samo base_url i API ključ — kod koji koristi OpenAI SDK (klijenti za Python, Node.js, JavaScript) ostaje identičan. URL format je https://runtime.sagemaker.REGION.amazonaws.com/endpoints/NAME/openai/v1, a kao API ključ koristi se bearer token generiran iz AWS credentialsa.
Što se autentikacija mijenja?
Bearer tokeni traju do 12 sati i generiraju se kroz SageMaker Python SDK kao klijentski-side SigV4 pre-signed URL-ovi — bez dodatnog mrežnog poziva u sustavu autentikacije. To znači da postoji praktički zero-overhead u odnosu na direktan OpenAI API key.
Koji modeli i deployment opcije su podržani?
API podržava sve postojeće SageMaker real-time inference endpointe — single-model i multi-model deployment kroz inference components. Bilo koji open-source model deployan na SageMaker (Llama, Mistral, Qwen, DeepSeek) automatski dobiva OpenAI-kompatibilan sloj.