新的SageMaker功能解决了什么问题？

将生成式AI模型部署到生产环境需要选择GPU类型、实例数量、批量大小和优化设置。手动测试所有组合需要数周时间。SageMaker AI现在自动化这一流程，在数小时而非数周内提供建议。

什么是NVIDIA AIPerf，它是如何使用的？

NVIDIA AIPerf是一个AI模型性能测量工具，生成合成查询并测量延迟、吞吐量和成本。SageMaker AI在内部通过不同GPU配置（H100、A100、L4）调用它，并自动将结果保存到比较表中。

建议可按三个标准排序：每次推理调用的总成本、首个到最后一个令牌的延迟以及每秒最大请求吞吐量。团队可以选择符合其优先级的配置——批量处理选择更便宜的，交互式应用选择更快的。

Amazon SageMaker AI获得了一项新功能，可以自动对生成式AI模型进行跨不同GPU配置的基准测试。团队无需手动测试H100、A100、L4和其他GPU类型与不同批量大小及优化选项的组合，SageMaker现在可以在数小时内生成有效的部署配置列表。

该功能在后台使用NVIDIA AIPerf工具。AIPerf生成模拟真实负载的合成查询，测量首个到最后一个令牌的延迟，并计算每秒请求吞吐量。SageMaker并行运行多个配置的测试，并将结果汇总在一张比较表中。

结果可根据业务优先级按三个不同标准排序。第一个标准是每次推理调用的总成本——由实例价格和平均响应生成时间综合计算得出。这对于查询量大的应用尤为重要。

第二个标准是延迟。聊天机器人等交互式应用需要快速的首个令牌时间和一致的生成速度。第三个标准是最大吞吐量——配置在性能下降之前能够处理多少并发请求。这对于处理批量查询或数据的应用很有用。

生产部署过程通常如下：团队选择模型，对硬件进行初步估计，运行负载测试，发现性能问题，更改配置，重复测试。这个循环会持续数周。新的SageMaker功能消除了这些迭代，因为它在单次遍历中覆盖了大多数相关配置。

一个重要细节是SageMaker不只返回一个”最佳”配置，而是返回带有排名的完整列表。团队可以查看成本与延迟之间的权衡并做出明智的决策。例如，便宜20%但慢30%的配置对某些应用可能是可以接受的。

该功能集成到现有的SageMaker AI工作流中。用户传入模型和约束条件——例如”每次调用最大成本0.01美元”或”延迟低于500ms”——SageMaker返回满足标准的配置。结果包括可直接启动的端点配置。

这是对MLOps决策的具体自动化，此前需要具备GPU架构深度知识的经验丰富的工程师。对于没有此类专家的公司，该功能使获得最优部署配置变得民主化。