AMD: Resource Manager automatski istiskuje neaktivne GPU workloadove i vraća resurse u zajednički pool klastera
AMD Resource Manager dobio je automatsko istiskivanje (pre-emption): prati iskorištenost GPU-a po radnom opterećenju i prekida poslove ispod konfigurabilnog praga (npr. 10%) nakon zadanog idle timera (npr. 15 minuta). Nudi dvije politike — istiskivanje samo pod pritiskom na GPU ili uvijek — vraćajući resurse zauzete neaktivnim dev okruženjima u zajednički pool.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
Kako Resource Manager odlučuje koji posao istisnuti?
AMD je dodao automatsko istiskivanje (pre-emption) u Resource Manager, alat za upravljanje GPU klasterima u ROCm stogu. Sustav prati iskorištenost GPU-a po svakom radnom opterećenju i prekida poslove čija aktivnost ostane ispod konfigurabilnog praga (primjerice 10%) tijekom zadanog idle timera (primjerice 15 minuta). Tako se GPU-ovi zauzeti neaktivnim poslovima automatski vraćaju u zajednički pool.
Dvije politike istiskivanja
Resource Manager nudi dvije politike. Zadana politika, tijekom pritiska na GPU, istiskuje neaktivne poslove samo kad druga opterećenja stvarno trebaju GPU. Druga politika, uvijek, istiskuje neaktivne poslove bez obzira na potražnju u klasteru. Administratori sami postavljaju i postotni prag aktivnosti i trajanje idle timera, pa mogu podesiti agresivnost prema svom okruženju.
Zašto je to važno za AI klastere
Značajka cilja miješana okruženja u kojima produkcijska inferencija, fino ugađanje i developerske radne stanice dijele iste GPU-ove. Bez automatizacije, GPU-ovi zaglavljeni u neaktivnim dev okruženjima i zastalim eksperimentima čekaju ručnu intervenciju operatera. Automatsko istiskivanje vraća te resurse bez ljudskog zahvata, što povećava iskoristivost skupih AMD Instinct akceleratora.
Česta pitanja
- Što je istiskivanje (pre-emption) GPU poslova?
- Istiskivanje je automatsko prekidanje poslova čija aktivnost predugo ostane ispod zadanog praga, čime se GPU vraća drugim radnim opterećenjima.
- Koje dvije politike nudi AMD Resource Manager?
- Tijekom pritiska na GPU (zadana — istiskuje samo kad drugi poslovi trebaju GPU) i uvijek (istiskuje neaktivne poslove bez obzira na potražnju).