AMD: Resource Manager 自动抢占空闲 GPU 工作负载,将资源归还集群共享池
AMD Resource Manager 新增了自动抢占(pre-emption)功能:监控每个工作负载的 GPU 使用率,并在低于可配置阈值(如 10%)超过指定空闲计时器(如 15 分钟)后终止相应作业。提供两种策略——仅在 GPU 有压力时抢占或始终抢占——将被不活跃开发环境占用的资源归还共享池。
本文由人工智能基于一手来源生成。
Resource Manager 如何决定抢占哪个作业?
AMD 在 ROCm 软件栈的 GPU 集群管理工具 Resource Manager 中新增了自动抢占(pre-emption)功能。系统监控每个工作负载的 GPU 使用率,并在使用率低于可配置阈值(例如 10%)持续超过指定空闲计时器(例如 15 分钟)后终止相应作业。被空闲作业占用的 GPU 会自动归还共享池。
两种抢占策略
Resource Manager 提供两种策略。默认策略「GPU 有压力时」仅在其他工作负载确实需要 GPU 时才抢占空闲作业。第二种策略「始终」则无论集群需求如何均抢占空闲作业。管理员可自行设置活动比例阈值和空闲计时器时长,以按需调整抢占的激进程度。
对 AI 集群的重要性
该功能针对生产推理、微调和开发者工作站共享同一批 GPU 的混合环境。若没有自动化手段,被不活跃开发环境和停滞实验占用的 GPU 只能等待运维人员手动干预。自动抢占无需人工介入即可归还这些资源,从而提高昂贵 AMD Instinct 加速器的利用率。
常见问题
- 什么是 GPU 作业抢占?
- GPU 作业抢占是自动终止活动长期低于设定阈值的作业的功能,从而将 GPU 资源归还给其他工作负载。
- AMD Resource Manager 提供哪两种抢占策略?
- GPU 有压力时(默认——仅在其他作业需要 GPU 时才抢占)和始终(无论需求如何均抢占空闲作业)。