🟢 🔧 Hardware Objavljeno: · 2 min čitanja ·

AMD: Alibabin ROLL framework radi nativno na Instinct GPU-ovima

Urednička ilustracija: Alibabin ROLL framework radi nativno na Instinct GPU-ovima

AMD je objavio da Alibabin open-source reinforcement-learning framework ROLL sada radi nativno na AMD Instinct GPU-ovima uz ROCm softver, bez izmjena koda, custom patcheva ili nestandardnih buildova. Suradnja uključuje vLLM kompatibilnost, popravke za Ray i podršku za distribuirani RL trening velikih jezičnih modela.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.

AMD je na svom ROCm blogu opisao suradnju s Alibabom kojom je open-source reinforcement-learning framework ROLL osposobljen da radi nativno na AMD Instinct GPU-ovima uz ROCm softverski stog. Ključna poruka jest da framework radi “out-of-the-box”, bez izmjena koda, custom patcheva ili nestandardnih buildova.

Što je ROLL?

ROLL je open-source framework koji je razvila Alibaba za velike, distribuirane reinforcement-learning radne tokove na velikim jezičnim modelima (LLM). Reinforcement learning, ili učenje potkrepljivanjem, metoda je u kojoj model uči kroz nagrade za poželjna ponašanja. ROLL podržava algoritme poput PPO, GRPO, DPO i RLHF, asinkrono izvršavanje te nativni agentni trening.

Kako je riješena vLLM i Ray kompatibilnost?

AMD je dodao podršku za obje generacije vLLM engine-a, legacy v0 i noviji v1 koji nudi bolju propusnost. vLLM je biblioteka za brzu inferenciju jezičnih modela. Za “sleep mode” ponašanje, vLLM verzije 0.11.0 i novije podržane su u potpunosti, dok starije zahtijevaju posebnu ROCm granu. Uz to, AMD je doprinio popravcima za Ray (verzija 2.48 i novije) koji rješavaju nepodudaranja u vidljivosti GPU uređaja, odnosno kompatibilnost varijabli HIP_VISIBLE_DEVICES i CUDA_VISIBLE_DEVICES.

Što ovo omogućuje?

Framework podržava trening na jednom čvoru i distribuirani trening preko više čvorova, s primjerima konfiguracije za modele poput Qwen 2.5-7B i podesivim parametrima iskorištenja GPU memorije. Za korisnike AMD opreme to znači da mogu pokretati zahtjevni RL trening jezičnih modela bez ovisnosti o tuđem hardverskom ekosustavu.

Česta pitanja

Što je ROLL?
ROLL je open-source reinforcement-learning framework koji je razvila Alibaba za velike, distribuirane RL radne opterećenja na jezičnim modelima, s podrškom za PPO, GRPO, DPO i RLHF.
Treba li mijenjati kod za pokretanje na AMD GPU-ovima?
Ne. AMD navodi da ROLL radi out-of-the-box na Instinct GPU-ovima uz ROCm, bez izmjena koda, custom patcheva ili nestandardnih buildova.