AMD ROCm：自动抢占空闲GPU作业，资源归还共享池

AMD Resource Manager 新增了自动抢占（pre-emption）功能：监控每个工作负载的 GPU 使用率，并在低于可配置阈值（如 10%）超过指定空闲计时器（如 15 分钟）后终止相应作业。提供两种策略——仅在 GPU 有压力时抢占或始终抢占——将被不活跃开发环境占用的资源归还共享池。

Resource Manager 如何决定抢占哪个作业？

AMD 在 ROCm 软件栈的 GPU 集群管理工具 Resource Manager 中新增了自动抢占（pre-emption）功能。系统监控每个工作负载的 GPU 使用率，并在使用率低于可配置阈值（例如 10%）持续超过指定空闲计时器（例如 15 分钟）后终止相应作业。被空闲作业占用的 GPU 会自动归还共享池。

两种抢占策略

Resource Manager 提供两种策略。默认策略「GPU 有压力时」仅在其他工作负载确实需要 GPU 时才抢占空闲作业。第二种策略「始终」则无论集群需求如何均抢占空闲作业。管理员可自行设置活动比例阈值和空闲计时器时长，以按需调整抢占的激进程度。

对 AI 集群的重要性

该功能针对生产推理、微调和开发者工作站共享同一批 GPU 的混合环境。若没有自动化手段，被不活跃开发环境和停滞实验占用的 GPU 只能等待运维人员手动干预。自动抢占无需人工介入即可归还这些资源，从而提高昂贵 AMD Instinct 加速器的利用率。

常见问题

什么是 GPU 作业抢占？

GPU 作业抢占是自动终止活动长期低于设定阈值的作业的功能，从而将 GPU 资源归还给其他工作负载。

AMD Resource Manager 提供哪两种抢占策略？

GPU 有压力时（默认——仅在其他作业需要 GPU 时才抢占）和始终（无论需求如何均抢占空闲作业）。

AMD: Resource Manager 自动抢占空闲 GPU 工作负载，将资源归还集群共享池

Resource Manager 如何决定抢占哪个作业？

两种抢占策略

对 AI 集群的重要性

常见问题

来源

相关新闻