AMD ROCm：非アクティブなGPUジョブの自動プリエンプション

AMD Resource Managerに自動プリエンプション機能が追加されました。ワークロードごとのGPU使用率を監視し、設定可能な閾値（例：10%）を下回るジョブを指定のアイドルタイマー（例：15分）経過後に停止します。2つのポリシーを提供しており、GPU負荷時のみプリエンプションするか常にプリエンプションするかを選択でき、非アクティブな開発環境が占有するリソースを共有プールに返還します。

Resource Managerはどのジョブをプリエンプションするか？

AMDはROCmスタックのGPUクラスタ管理ツールであるResource Managerに自動プリエンプション（pre-emption）機能を追加しました。このシステムはワークロードごとのGPU使用率を監視し、設定可能な閾値（例：10%）を指定のアイドルタイマー（例：15分）の間下回り続けるジョブを停止します。これにより、非アクティブなジョブに占有されたGPUが自動的に共有プールに返還されます。

2つのプリエンプションポリシー

Resource Managerは2つのポリシーを提供しています。デフォルトのポリシー「GPU負荷時」は、他のワークロードが実際にGPUを必要とするときのみ非アクティブなジョブをプリエンプションします。もう一方のポリシー「常に」は、クラスタの需要に関係なく非アクティブなジョブをプリエンプションします。管理者は使用率の閾値とアイドルタイマーの両方を設定できるため、環境に合わせてアグレッシブさを調整することが可能です。

AIクラスタにとっての重要性

この機能は、本番推論・ファインチューニング・開発者ワークステーションが同じGPUを共有する混在環境を対象としています。自動化がない場合、非アクティブな開発環境や停滞した実験に占有されたGPUはオペレーターの手動介入を待つことになります。自動プリエンプションはそれらのリソースを人手を介さずに返還し、高価なAMD Instinctアクセラレーターの使用効率を高めます。

よくある質問

GPUジョブのプリエンプション（pre-emption）とは何ですか？

プリエンプションとは、設定した閾値を長時間下回り続けるジョブを自動的に停止し、GPUを他のワークロードに返還することです。

AMD Resource Managerが提供する2つのポリシーは何ですか？

GPU負荷時（デフォルト — 他のジョブがGPUを必要とするときのみ非アクティブなジョブをプリエンプション）と常に（需要に関係なく非アクティブなジョブをプリエンプション）の2種類です。

AMD: Resource Managerが非アクティブなGPUワークロードを自動的にプリエンプションしクラスタの共有プールにリソースを返還

Resource Managerはどのジョブをプリエンプションするか？

2つのプリエンプションポリシー

AIクラスタにとっての重要性

よくある質問

出典

関連ニュース