LoRA (저랭크 적응)

LoRA (저랭크 적응, Low-Rank Adaptation) 는 2021년 마이크로소프트의 Hu 등이 제안한 파라미터 효율적 파인튜닝 기법입니다. 대규모 모델의 모든 가중치를 갱신하는 대신, 가중치를 동결하고 각 층에 학습 가능한 작은 저랭크 행렬 한 쌍을 주입하여 그 곱으로 필요한 가중치 변화를 근사합니다.

이 기법은 파인튜닝 과정에서 가중치 변화가 낮은 “내재적 랭크”를 갖는다는 관찰에 기반하며, 따라서 훨씬 적은 파라미터로 표현할 수 있습니다. GPT-3(1,750억 파라미터)와 같은 대규모 언어 모델에서는 학습 가능한 파라미터를 최대 1만 배, GPU 메모리를 수 배 줄입니다. 학습이 끝나면 어댑터를 베이스 가중치에 병합할 수 있어 추론 지연이 추가되지 않습니다.

2025~2026년 현재 LoRA는 Llama 같은 오픈 모델을 저비용으로 적응시키는 사실상의 표준이며, 양자화와 결합한 QLoRA를 통해 단일 소비자용 GPU에서도 파인튜닝이 가능합니다. 작고 이식성 높은 어댑터(대개 100MB 미만)는 모델 커스터마이징 생태계의 중추 역할을 합니다.

출처

관련 항목