AWS SageMaker: OpenAI兼容/openai/v1端点正式上线

AWS于2026年5月20日宣布，Amazon SageMaker AI的实时推理端点现已提供OpenAI兼容API——可直接替换OpenAI SDK、LangChain和Strands Agents，只需更改URL即可。端点通过/openai/v1路径提供Chat Completions和流式传输支持，身份验证使用从AWS凭据生成的时效性Bearer令牌。

AWS于2026年5月20日宣布，Amazon SageMaker AI的实时推理端点现已提供OpenAI兼容API。使用OpenAI Python SDK、LangChain、AWS Strands Agents或任何与OpenAI API兼容的库编写的应用程序，只需更改base_url和API密钥即可迁移到SageMaker，无需修改代码。

端点提供什么？

端点通过**/openai/v1路径提供Chat Completions和流式传输**支持。URL格式如下：

https://runtime.sagemaker.REGION.amazonaws.com/endpoints/ENDPOINT_NAME/openai/v1

所有标准OpenAI SDK功能（client.chat.completions.create、通过stream=True的流式传输）与OpenAI公共API完全一致。这意味着LangChain ChatOpenAI类、AWS Strands Agents、LlamaIndex OpenAI模块以及任何通过OpenAI客户端运行的库，都可以获得用于自有基础设施的直接替换。

身份验证如何工作？

身份验证使用从AWS凭据通过SageMaker Python SDK生成的时效性Bearer令牌。令牌有效期最长12小时，作为客户端SigV4预签名URL生成，无需额外的身份验证网络调用——实际上消除了与直接使用OpenAI API密钥相比的开销。

战略意义是什么？

这一举措巩固了OpenAI API标准作为LLM工具链实质性可移植接口的地位。AWS由此承认，让开发者生态系统针对单一API编写代码并在不同底层上运行，比强制使用自家SDK更为便捷。这与AWS十多年前对S3 API的处理方式如出一辙——S3 API后来成为MinIO、Cloudflare R2、Wasabi等采用的行业标准。

对企业用户而言，这开启了一条重要路径：在概念验证阶段基于OpenAI开发的应用程序，可以无需额外重构迁移到自有SageMaker基础设施上的DeepSeek V3、Llama 4、Mistral Large或其他开源模型。推理成本变得可预测（按GPU预留小时计费，而非按Token计费），数据也留在自己的AWS组织内。

下一步是什么？

本次公告未明确宣布对OpenAI Embeddings和OpenAI Vision API的支持，但AWS文档暗示这些功能在路线图中。多模型推理组件已可运行，团队将能够在同一端点上扩展相同的OpenAI兼容逻辑到多个模型。

常见问题

如何从OpenAI具体迁移到SageMaker？

开发者只需更改base_url和API密钥——使用OpenAI SDK（Python、Node.js、JavaScript客户端）的代码保持不变。URL格式为https://runtime.sagemaker.REGION.amazonaws.com/endpoints/NAME/openai/v1，API密钥使用从AWS凭据生成的Bearer令牌。

身份验证发生了什么变化？

Bearer令牌有效期最长12小时，通过SageMaker Python SDK作为客户端SigV4预签名URL生成——无需额外的身份验证网络调用。这意味着与直接使用OpenAI API密钥相比，实际开销几乎为零。

支持哪些模型和部署选项？

该API支持所有现有的SageMaker实时推理端点——通过推理组件进行单模型和多模型部署。在SageMaker上部署的任何开源模型（Llama、Mistral、Qwen、DeepSeek）都会自动获得OpenAI兼容层。

AWS：SageMaker AI新增OpenAI兼容API端点

端点提供什么？

身份验证如何工作？

战略意义是什么？

下一步是什么？

常见问题

来源

相关新闻