AWS: SageMaker AI dobiva OpenAI-kompatibilne API endpointe
AWS je 20. svibnja 2026. najavio da Amazon SageMaker AI od sada izlaže OpenAI-kompatibilni API na real-time inference endpointima — drop-in zamjena za OpenAI SDK, LangChain i Strands Agents koja zahtijeva samo promjenu URL-a. Endpointi izlažu /openai/v1 putanju s podrškom za Chat Completions i streaming, dok autentikacija koristi vremenski ograničene bearer tokene generirane iz AWS credentialsa.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
AWS je 20. svibnja 2026. najavio da Amazon SageMaker AI od sada izlaže OpenAI-kompatibilni API na svojim real-time inference endpointima. Aplikacije pisane za OpenAI Python SDK, LangChain, AWS Strands Agents ili bilo koju OpenAI-API kompatibilnu biblioteku mogu se prebaciti na SageMaker bez promjene koda — samo promjenom base_url-a i API ključa.
Što endpoint izlaže?
Endpointi izlažu /openai/v1 putanju s podrškom za Chat Completions i streaming. URL format je:
https://runtime.sagemaker.REGION.amazonaws.com/endpoints/ENDPOINT_NAME/openai/v1
Sve standardne OpenAI SDK funkcije (client.chat.completions.create, streaming kroz stream=True) rade identično kao prema OpenAI-jevom javnom API-ju. To znači da LangChain ChatOpenAI klasa, AWS Strands Agents, LlamaIndex OpenAI module i bilo koje druge biblioteke koje rade kroz OpenAI klijent dobivaju drop-in zamjenu za vlastitu infrastrukturu.
Kako funkcionira autentikacija?
Autentikacija koristi vremenski ograničene bearer tokene koji se generiraju iz AWS credentialsa kroz SageMaker Python SDK. Tokeni traju do 12 sati i generiraju se kao klijentski-side SigV4 pre-signed URL-ovi, bez dodatnog mrežnog poziva u trenutku autentikacije — što praktički eliminira overhead u odnosu na direktan OpenAI API key.
Koja je strateška implikacija?
Ovaj potez konsolidira OpenAI API standard kao de-facto portable interface za LLM tooling. AWS time priznaje da je razvojnu ekosustavu jednostavnije pisati za jedan API i puštati ga na različitim podlogama nego forsirati vlastiti SDK. Slično je AWS učinio s S3 API-jem prije više od desetljeća, što je postao standard koji koriste MinIO, Cloudflare R2, Wasabi i drugi.
Za enterprise korisnike otvara se ozbiljan put: aplikacija razvijena na OpenAI-ju u proof-of-concept fazi može se preseliti na vlastitu SageMaker infrastrukturu s DeepSeek V3, Llama 4, Mistral Large ili drugim open-source modelima — bez dodatnog refactoring-a. Trošak inferencije postaje predvidljiv (per-hour GPU rezerva umjesto per-token API plaćanja), a podaci ostaju unutar vlastite AWS organizacije.
Što slijedi?
Podrška za OpenAI Embeddings i OpenAI Vision API-jeve nije eksplicitno najavljena u ovoj objavi, ali AWS u dokumentaciji sugerira da je u roadmapu. Multi-model inference components već rade pa će timovi moći skalirati istu OpenAI-kompatibilnu logiku preko više modela na istom endpointu.
Česta pitanja
- Kako se konkretno prebacuje iz OpenAI na SageMaker?
- Razvojnik mijenja samo base_url i API ključ — kod koji koristi OpenAI SDK (klijenti za Python, Node.js, JavaScript) ostaje identičan. URL format je https://runtime.sagemaker.REGION.amazonaws.com/endpoints/NAME/openai/v1, a kao API ključ koristi se bearer token generiran iz AWS credentialsa.
- Što se autentikacija mijenja?
- Bearer tokeni traju do 12 sati i generiraju se kroz SageMaker Python SDK kao klijentski-side SigV4 pre-signed URL-ovi — bez dodatnog mrežnog poziva u sustavu autentikacije. To znači da postoji praktički zero-overhead u odnosu na direktan OpenAI API key.
- Koji modeli i deployment opcije su podržani?
- API podržava sve postojeće SageMaker real-time inference endpointe — single-model i multi-model deployment kroz inference components. Bilo koji open-source model deployan na SageMaker (Llama, Mistral, Qwen, DeepSeek) automatski dobiva OpenAI-kompatibilan sloj.
Povezane vijesti
Google DeepMind: WeatherNext predvidio uragan Melissa kao Kategorija 5 pet dana unaprijed
CNCF: Kubernetes debugger briše tragove — ozbiljan problem za sigurnosne audite
AWS: Amazon Quick — document-level access control za S3 knowledge bases s deny-by-default i ALLOW/DENY pravilima