🟡 🏥 실무 게시일: · 2 분 읽기 ·

AWS: SageMaker AI에 OpenAI 호환 API 엔드포인트 도입

Editorial illustration: AWS SageMaker AI OpenAI 호환 API 엔드포인트, 자체 GPU 인프라로의 드롭인 교체 실현

AWS는 2026년 5월 20일 Amazon SageMaker AI의 실시간 추론 엔드포인트에서 OpenAI 호환 API를 제공한다고 발표했습니다. OpenAI SDK, LangChain, Strands Agents의 드롭인 대체재로 URL만 변경하면 됩니다. 엔드포인트는 /openai/v1 경로로 Chat Completions와 스트리밍을 지원하며, 인증은 AWS 자격증명에서 생성된 시간 제한 Bearer 토큰을 사용합니다.

🤖

이 기사는 AI가 1차 출처를 기반으로 생성했습니다.

AWS는 2026년 5월 20일 Amazon SageMaker AI의 실시간 추론 엔드포인트에서 OpenAI 호환 API를 제공한다고 발표했습니다. OpenAI Python SDK, LangChain, AWS Strands Agents 또는 OpenAI API 호환 라이브러리로 작성된 애플리케이션은 base_url과 API 키만 변경하면 SageMaker로 마이그레이션할 수 있습니다——코드 변경이 필요 없습니다.

엔드포인트가 제공하는 것은?

엔드포인트는 /openai/v1 경로로 Chat Completions스트리밍을 지원합니다. URL 형식은 다음과 같습니다:

https://runtime.sagemaker.REGION.amazonaws.com/endpoints/ENDPOINT_NAME/openai/v1

모든 표준 OpenAI SDK 기능(client.chat.completions.create, stream=True를 통한 스트리밍)이 OpenAI 공개 API와 동일하게 작동합니다. 즉 LangChain ChatOpenAI 클래스, AWS Strands Agents, LlamaIndex OpenAI 모듈 및 OpenAI 클라이언트를 통해 작동하는 기타 라이브러리는 모두 자체 인프라를 위한 드롭인 대체재를 얻게 됩니다.

인증은 어떻게 작동하는가?

인증은 SageMaker Python SDK를 통해 AWS 자격증명에서 생성된 시간 제한 Bearer 토큰을 사용합니다. 토큰은 최대 12시간 유효하며 클라이언트 측 SigV4 사전 서명 URL로 생성되어 인증 시 추가 네트워크 호출이 없습니다——OpenAI API 키를 직접 사용하는 것과 비교해 오버헤드가 사실상 없습니다.

전략적 의미는?

이 움직임은 OpenAI API 표준을 LLM 툴링의 사실상 휴대 가능한 인터페이스로 공고히 합니다. AWS는 이로써 개발자 생태계가 하나의 API를 위해 코드를 작성하고 다양한 기반에서 실행하는 것이 자체 SDK를 강요하는 것보다 편하다는 것을 인정한 셈입니다. 10년 이상 전 AWS가 S3 API에 접근한 방식과 유사하며, 이후 MinIO, Cloudflare R2, Wasabi 등이 채택한 표준이 됐습니다.

엔터프라이즈 사용자에게는 중요한 경로가 열립니다. 개념 검증 단계에서 OpenAI로 개발한 애플리케이션을 추가 리팩토링 없이 자체 SageMaker 인프라의 DeepSeek V3, Llama 4, Mistral Large 또는 기타 오픈소스 모델로 이전할 수 있습니다. 추론 비용이 예측 가능해지며(토큰 당 API 요금이 아닌 시간당 GPU 예약), 데이터는 자체 AWS 조직 내에 유지됩니다.

다음 단계는?

OpenAI EmbeddingsOpenAI Vision API 지원은 이번 발표에서 명시적으로 언급되지 않았지만, AWS 문서는 로드맵에 포함돼 있음을 시사합니다. 다중 모델 추론 컴포넌트는 이미 작동하므로, 팀은 동일한 OpenAI 호환 로직을 동일 엔드포인트의 여러 모델로 확장할 수 있습니다.

자주 묻는 질문

OpenAI에서 SageMaker로 구체적으로 어떻게 전환합니까?
개발자는 base_url과 API 키만 변경하면 됩니다——OpenAI SDK(Python, Node.js, JavaScript 클라이언트)를 사용하는 코드는 그대로입니다. URL 형식은 https://runtime.sagemaker.REGION.amazonaws.com/endpoints/NAME/openai/v1이며, API 키로는 AWS 자격증명에서 생성된 Bearer 토큰을 사용합니다.
인증은 어떻게 변경됩니까?
Bearer 토큰은 최대 12시간 유효하며, SageMaker Python SDK를 통해 클라이언트 측 SigV4 사전 서명 URL로 생성됩니다——인증 시 추가 네트워크 호출이 없습니다. 이는 OpenAI API 키를 직접 사용하는 것과 비교해 실질적으로 오버헤드가 없음을 의미합니다.
어떤 모델과 배포 옵션이 지원됩니까?
API는 모든 기존 SageMaker 실시간 추론 엔드포인트를 지원합니다——추론 컴포넌트를 통한 단일 모델 및 다중 모델 배포. SageMaker에 배포된 오픈소스 모델(Llama, Mistral, Qwen, DeepSeek)은 자동으로 OpenAI 호환 레이어를 갖게 됩니다.