AMD ROCm: automatische Verdrängung inaktiver GPU-Jobs

Der AMD Resource Manager erhielt automatische Verdrängung (Pre-emption): Er überwacht die GPU-Auslastung pro Arbeitslast und unterbricht Jobs unterhalb eines konfigurierbaren Schwellenwerts (z.B. 10%) nach einem festgelegten Idle-Timer (z.B. 15 Minuten). Er bietet zwei Richtlinien – Verdrängung nur unter GPU-Druck oder immer – und gibt Ressourcen inaktiver Entwicklungsumgebungen an den gemeinsamen Pool zurück.

Wie entscheidet der Resource Manager, welchen Job er verdrängt?

AMD hat automatische Verdrängung (Pre-emption) in den Resource Manager eingebaut, ein Werkzeug zur Verwaltung von GPU-Clustern im ROCm-Stack. Das System überwacht die GPU-Auslastung je Arbeitslast und beendet Jobs, deren Aktivität länger als der festgelegte Idle-Timer (z.B. 15 Minuten) unter einem konfigurierbaren Schwellenwert (z.B. 10%) bleibt. So werden GPUs, die durch inaktive Jobs belegt sind, automatisch in den gemeinsamen Pool zurückgegeben.

Zwei Verdrängungsrichtlinien

Der Resource Manager bietet zwei Richtlinien. Die Standardrichtlinie, unter GPU-Druck, verdrängt inaktive Jobs nur dann, wenn andere Workloads tatsächlich die GPU benötigen. Die zweite Richtlinie, immer, verdrängt inaktive Jobs unabhängig von der Nachfrage im Cluster. Administratoren legen sowohl den prozentualen Aktivitätsschwellenwert als auch die Dauer des Idle-Timers selbst fest und können die Aggressivität an ihre Umgebung anpassen.

Warum das für KI-Cluster wichtig ist

Die Funktion zielt auf gemischte Umgebungen, in denen Produktions-Inferenz, Feinabstimmung und Entwickler-Workstations dieselben GPUs teilen. Ohne Automatisierung warten GPUs, die in inaktiven Entwicklungsumgebungen und abgestürzten Experimenten feststecken, auf manuelle Eingriffe der Operatoren. Automatische Verdrängung gibt diese Ressourcen ohne menschliches Eingreifen zurück und erhöht damit die Auslastung teurer AMD Instinct-Beschleuniger.

Häufig gestellte Fragen

Was ist GPU-Job-Verdrängung (Pre-emption)?

Pre-emption ist das automatische Beenden von Jobs, deren Aktivität zu lange unter einem definierten Schwellenwert bleibt, wodurch die GPU für andere Workloads freigegeben wird.

Welche zwei Richtlinien bietet der AMD Resource Manager?

Unter GPU-Druck (Standard – verdrängt nur, wenn andere Jobs die GPU benötigen) und immer (verdrängt inaktive Jobs unabhängig von der Nachfrage).

AMD: Resource Manager verdrängt automatisch inaktive GPU-Workloads und gibt Ressourcen an den Cluster-Pool zurück

Wie entscheidet der Resource Manager, welchen Job er verdrängt?

Zwei Verdrängungsrichtlinien

Warum das für KI-Cluster wichtig ist

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten