AWS:SageMaker AI新增OpenAI兼容API端点
AWS于2026年5月20日宣布,Amazon SageMaker AI的实时推理端点现已提供OpenAI兼容API——可直接替换OpenAI SDK、LangChain和Strands Agents,只需更改URL即可。端点通过/openai/v1路径提供Chat Completions和流式传输支持,身份验证使用从AWS凭据生成的时效性Bearer令牌。
本文由人工智能基于一手来源生成。
AWS于2026年5月20日宣布,Amazon SageMaker AI的实时推理端点现已提供OpenAI兼容API。使用OpenAI Python SDK、LangChain、AWS Strands Agents或任何与OpenAI API兼容的库编写的应用程序,只需更改base_url和API密钥即可迁移到SageMaker,无需修改代码。
端点提供什么?
端点通过**/openai/v1路径提供Chat Completions和流式传输**支持。URL格式如下:
https://runtime.sagemaker.REGION.amazonaws.com/endpoints/ENDPOINT_NAME/openai/v1
所有标准OpenAI SDK功能(client.chat.completions.create、通过stream=True的流式传输)与OpenAI公共API完全一致。这意味着LangChain ChatOpenAI类、AWS Strands Agents、LlamaIndex OpenAI模块以及任何通过OpenAI客户端运行的库,都可以获得用于自有基础设施的直接替换。
身份验证如何工作?
身份验证使用从AWS凭据通过SageMaker Python SDK生成的时效性Bearer令牌。令牌有效期最长12小时,作为客户端SigV4预签名URL生成,无需额外的身份验证网络调用——实际上消除了与直接使用OpenAI API密钥相比的开销。
战略意义是什么?
这一举措巩固了OpenAI API标准作为LLM工具链实质性可移植接口的地位。AWS由此承认,让开发者生态系统针对单一API编写代码并在不同底层上运行,比强制使用自家SDK更为便捷。这与AWS十多年前对S3 API的处理方式如出一辙——S3 API后来成为MinIO、Cloudflare R2、Wasabi等采用的行业标准。
对企业用户而言,这开启了一条重要路径:在概念验证阶段基于OpenAI开发的应用程序,可以无需额外重构迁移到自有SageMaker基础设施上的DeepSeek V3、Llama 4、Mistral Large或其他开源模型。推理成本变得可预测(按GPU预留小时计费,而非按Token计费),数据也留在自己的AWS组织内。
下一步是什么?
本次公告未明确宣布对OpenAI Embeddings和OpenAI Vision API的支持,但AWS文档暗示这些功能在路线图中。多模型推理组件已可运行,团队将能够在同一端点上扩展相同的OpenAI兼容逻辑到多个模型。
常见问题
- 如何从OpenAI具体迁移到SageMaker?
- 开发者只需更改base_url和API密钥——使用OpenAI SDK(Python、Node.js、JavaScript客户端)的代码保持不变。URL格式为https://runtime.sagemaker.REGION.amazonaws.com/endpoints/NAME/openai/v1,API密钥使用从AWS凭据生成的Bearer令牌。
- 身份验证发生了什么变化?
- Bearer令牌有效期最长12小时,通过SageMaker Python SDK作为客户端SigV4预签名URL生成——无需额外的身份验证网络调用。这意味着与直接使用OpenAI API密钥相比,实际开销几乎为零。
- 支持哪些模型和部署选项?
- 该API支持所有现有的SageMaker实时推理端点——通过推理组件进行单模型和多模型部署。在SageMaker上部署的任何开源模型(Llama、Mistral、Qwen、DeepSeek)都会自动获得OpenAI兼容层。