AWS G7e Blackwell实例:SageMaker上Qwen3-32B每百万令牌仅需0.41美元——推理成本降低4倍
为什么重要
AWS G7e实例是搭载NVIDIA RTX PRO 6000 Blackwell芯片和96GB GDDR7内存的新型SageMaker GPU实例,相较G6e一代推理性能提升最高2.3倍。Qwen3-32B的成本从每百万输出令牌2.06美元降至0.79美元,配合EAGLE推测解码最低可达0.41美元。
AWS G7e实例带来了什么?
AWS于2026年4月20日宣布推出G7e,一代全新的Amazon SageMaker AI GPU实例。这些实例使用NVIDIA RTX PRO 6000 Blackwell服务器版,配备96GB GDDR7内存——是前一代G6e两倍的内存,并采用更快速的新型内存标准。
G7e的目标明确:在SageMaker平台(AWS企业级ML部署的标准)上实现更便宜、更快速的大型语言模型推理。
具体快多少?
AWS的基准测试显示,对于生成式模型,推理性能比G6e提升最高2.3倍。AWS给出的具体示例是Qwen3-32B模型:
- G6e — 每百万输出令牌2.06美元
- G7e — 每百万输出令牌0.79美元
- G7e + EAGLE推测解码 — 每百万输出令牌0.41美元
配合EAGLE(草稿模型预测令牌、目标模型验证的技术),价格比G6e使用相同技术降低4倍。对于每月生成数十亿令牌的生产系统,这意味着数千美元与数万美元的差距。
支持哪些规模的模型?
G7e提供多种配置:
- g7e.2xlarge — 1个GPU,4.20美元/小时,支持最高350亿参数的模型(如Qwen3-32B、Llama-3.1-8B)
- 2 GPU版本 — 用于最高约700亿参数的模型
- 4 GPU版本 — 用于更大的模型
- 8 GPU版本 — 最高3000亿参数,用于最大的开源模型
配置涵盖了从小型生产模型到当今可独立提供服务的最大规模的全部范围。
1600 Gbps EFA网络意味着什么?
对于多GPU和多节点部署,实例之间的网络至关重要。G7e支持EFA(弹性织物适配器)网络最高1600 Gbps。EFA是AWS技术,允许GPU绕过经典TCP/IP协议栈直接通信——对于模型分布在多个设备之间的分布式推理至关重要。
实际上,这意味着3000亿参数模型可以在8个GPU上提供服务,而不会出现网络瓶颈主导延迟的问题,这在较弱实例类型上一直是个难题。
对推理市场的影响
G7e改变了自托管LLM推理的经济性。此前,使用Groq、Together或Fireworks等专用推理提供商比在AWS上自行托管模型更便宜。以每百万令牌0.41美元,AWS正在接近这些价格,同时提供对模型、微调和数据隐私的完全控制优势。
对于已有AWS合同和合规要求的企业客户,G7e成为生产推理的有力替代方案。这也给竞争性推理提供商带来了压力——如果AWS能以类似价格提供简单的SageMaker集成,差异化必须从其他维度(延迟、SLA、附加功能)体现。
本文由人工智能基于一手来源生成。