🤖 24 AI
🟡 🏥 实践应用 2026年4月23日星期四 · 2 分钟阅读

AWS SageMaker自动为生成式AI模型进行基准测试并提供最优推理配置

编辑插图:AI实践——praksa

为什么重要

Amazon SageMaker AI现在通过NVIDIA AIPerf工具自动对生成式AI模型进行跨GPU配置的基准测试,消除了数周的手动测试,并提供按成本、延迟或吞吐量排序的推荐配置。

结束数周手动测试

Amazon SageMaker AI获得了一项新功能,可以自动对生成式AI模型进行跨不同GPU配置的基准测试。团队无需手动测试H100、A100、L4和其他GPU类型与不同批量大小及优化选项的组合,SageMaker现在可以在数小时内生成有效的部署配置列表。

该功能在后台使用NVIDIA AIPerf工具。AIPerf生成模拟真实负载的合成查询,测量首个到最后一个令牌的延迟,并计算每秒请求吞吐量。SageMaker并行运行多个配置的测试,并将结果汇总在一张比较表中。

三个排序标准

结果可根据业务优先级按三个不同标准排序。第一个标准是每次推理调用的总成本——由实例价格和平均响应生成时间综合计算得出。这对于查询量大的应用尤为重要。

第二个标准是延迟。聊天机器人等交互式应用需要快速的首个令牌时间和一致的生成速度。第三个标准是最大吞吐量——配置在性能下降之前能够处理多少并发请求。这对于处理批量查询或数据的应用很有用。

对MLOps团队的实际价值

生产部署过程通常如下:团队选择模型,对硬件进行初步估计,运行负载测试,发现性能问题,更改配置,重复测试。这个循环会持续数周。新的SageMaker功能消除了这些迭代,因为它在单次遍历中覆盖了大多数相关配置。

一个重要细节是SageMaker不只返回一个”最佳”配置,而是返回带有排名的完整列表。团队可以查看成本与延迟之间的权衡并做出明智的决策。例如,便宜20%但慢30%的配置对某些应用可能是可以接受的。

与现有工作流的集成

该功能集成到现有的SageMaker AI工作流中。用户传入模型和约束条件——例如”每次调用最大成本0.01美元”或”延迟低于500ms”——SageMaker返回满足标准的配置。结果包括可直接启动的端点配置。

这是对MLOps决策的具体自动化,此前需要具备GPU架构深度知识的经验丰富的工程师。对于没有此类专家的公司,该功能使获得最优部署配置变得民主化。

🤖

本文由人工智能基于一手来源生成。