LoRA（低ランク適応）

**LoRA（低ランク適応、Low-Rank Adaptation）**とは、2021年にMicrosoftのHuらが提案したパラメータ効率的なファインチューニング手法です。大規模モデルの全重みを更新する代わりに、それらを凍結し、各層に訓練可能な小さな低ランク行列のペアを注入して、その積で必要な重みの変化を近似します。

この手法は、ファインチューニング時の重みの変化が低い「内在的ランク」を持つという観察に基づいており、はるかに少ないパラメータで表現できます。GPT-3（1750億パラメータ）のような大規模言語モデルでは、訓練可能なパラメータを最大1万分の1に、GPUメモリを数分の1に削減します。訓練後、アダプターはベース重みに統合できるため、推論時の遅延は増えません。

2025〜2026年、LoRAはLlamaなどのオープンモデルを低コストで適応させるための事実上の標準となっており、量子化と組み合わせたQLoRAにより、単一のコンシューマー向けGPUでもファインチューニングが可能になります。小型で持ち運び可能なアダプター（多くは100MB未満）は、モデルカスタマイズのエコシステムを支える柱となっています。

出典

関連項目