LoRA

LoRA (Low-Rank Adaptation) je metoda parameter-efficient fine-tuninga koju su 2021. predstavili Hu i suradnici iz Microsofta. Umjesto ažuriranja svih težina velikog modela, LoRA ih zamrzava i u svaki sloj ubacuje par malih, trenabilnih matrica niskog ranga čiji produkt aproksimira potrebnu promjenu težina.

Ideja počiva na opažanju da promjene težina tijekom fine-tuninga imaju nizak „intrinzični rang” pa ih je moguće dobro opisati s malo parametara. Za veliki jezični model poput GPT-3 (175 milijardi parametara) to smanjuje broj trenabilnih parametara do 10.000 puta i VRAM zahtjeve nekoliko puta. Nakon treniranja adapter se može spojiti natrag u osnovne težine, pa nema dodatne latencije pri inferenciji.

U 2025.-2026. LoRA je de facto standard za jeftinu prilagodbu otvorenih modela poput Llame, a kombinacija s kvantizacijom (QLoRA) omogućuje fine-tuning čak i na jednom potrošačkom GPU-u. Mali, prenosivi adapteri (često ispod 100 MB) čine ga okosnicom ekosustava prilagodbe.

Izvori

Vidi također