왜 파인튜닝이 환각을 촉진하는가? 의미 표현 간의 간섭——해결책은 자가 증류 SFT
왜 중요한가
새로운 ArXiv 논문은 파인튜닝 후 환각 증가의 원인이 용량 부족도 행동 복제도 아니라 중첩되는 의미 표현 간의 간섭임을 밝힙니다. 해결책: 출력 분포 드리프트를 정규화하고 파인튜닝을 지속 학습 문제로 다루는 자가 증류 SFT.
새로운 논문은 무엇을 밝히나요?
2026년 4월 20일 발표된 ArXiv 논문은 지도 학습 파인튜닝이 대형 언어 모델의 환각을 증가시키는 메커니즘을 해명합니다. 발견은 반직관적입니다: 환각은 용량 부족에 의한 것도 소위 행동 복제에 의한 것도 아니며, 중첩되는 의미 표현 간의 간섭이라는 특정 현상에 의해 유발됩니다.
정의: LLM 맥락에서의 환각은 모델이 사실적으로 잘못된 정보를 만들어내어 올바른 사실과 같은 자신감으로 진실로 제시함을 의미합니다.
파인튜닝이란 무엇이며 왜 이렇게 광범위하게 사용되나요?
정의: 파인튜닝은 사전 훈련된 모델을 더 좁고 특정한 데이터셋으로 추가 훈련하여, 새로운 작업이나 도메인을 습득시키는 과정입니다. LLM을 고유한 필요에 맞게 적응시키고자 하는 모든 진지한 팀이 사용합니다——고객 지원 봇부터 의료 어시스턴트까지.
문제는 파인튜닝이 종종 모델의 일반 지식을 저하시킨다는 것입니다. LLM이 새로운 것을 ‘배운’ 후, 알고 있던 것의 일부를 잊거나——더 나쁘게는——기존 지식과 새로운 지식을 상상의 주장으로 섞기 시작합니다.
문제 뒤에 있는 메커니즘은 무엇인가요?
저자들은 모델이 용량 부족 (‘가득 찬’ 것이 아님)으로 지식을 잃는 것이 아니며, 행동 복제 (다른 모델을 모방함)에 의한 것도 아니라고 주장합니다. 실제 원인은 더 미묘합니다:
중첩되는 의미 표현. 모델은 관련 개념을 내부 공간의 유사한 부분에 저장합니다. 파인튜닝 중에 그래디언트가 새로운 도메인의 가중치를 업데이트할 때, 그것들은 인접 표현——유사하지만 동일하지 않은 지식과 관련된 것들——을 의도치 않게 변경합니다.
비유: 도서관에서 모든 의학 책을 이동시키면, 같은 선반에 있는 일부 생물학 책도 이동시킵니다. 도서관이 너무 작은 것이 아닙니다——영역들이 겹치는 것입니다.
저자들이 제안하는 해결책은 무엇인가요?
논문의 주요 혁신은 SFT(지도 학습 파인튜닝)를 위한 자가 증류 방법입니다. 어떻게 작동하나요?
정의: 자가 증류는 모델이 새로운 데이터와 자신의 이전 출력 모두로부터 학습함을 의미합니다. 훈련 중에 그래디언트는 새로운 지식만을 최적화하는 것이 아니라 출력 분포 드리프트도 정규화합니다——응답의 분포는 원본에서 너무 멀리 벗어나서는 안 됩니다.
실제로: 각 훈련 배치에는 모델이 이전에 알고 있던 것에 대한 ‘상기’가 포함되어 있어, 새로운 것을 배우면서 기존 지식을 보호합니다.
파인튜닝을 지속 학습으로 처리하기
저자들은 SFT를 지속 학습 문제——기존 작업을 잊지 않고 새로운 작업을 학습하는 데 다루는 머신 러닝의 하위 분야——로 처리합니다. 이 접근 방식은 이미 잘 연구된 기법들의 전체 무기고를 열어줍니다: Elastic Weight Consolidation, Replay Buffer, Parameter Isolation 등.
추가 해결책: 선택적 동결
대안으로 저자들은 선택적 동결——새로운 지식이 필요하지 않은 시나리오에서 파라미터를 선택적으로 동결하는 것——을 언급합니다. 새로운 법률 도메인을 학습시키고 싶지만 이메일 쓰는 방법을 잊게 하고 싶지 않다면, 쓰기를 제어하는 네트워크 부분을 동결합니다.
누구에게 유용한가요?
민감한 도메인에서 LLM을 파인튜닝하는 모든 팀:
- 고객 지원 — 반품 정책을 만들어내서는 안 되는 봇
- 의료 어시스턴트 — 진단을 환각해서는 안 되는 모델
- 법률 도구 — 규정을 정확하게 인용해야 하는 시스템
- 금융 어드바이저 — 시장 데이터를 만들어내서는 안 되는 도구
이 모든 것에 대해, 자가 증류 SFT와 선택적 동결은 기존 훈련 파이프라인에 최소한의 변경으로 즉시 적용할 수 있는 구체적인 기법입니다.
결론
논문은 명확한 처방을 제공합니다: 파인튜닝을 처음부터 하는 훈련이 아닌 지속 학습으로 처리하십시오. 환각은 피할 수 없는 결과가 아닙니다——기존 지식을 보호하지 않는 거친 가중치 업데이트의 증상입니다. 전문적인 AI 팀에게 이 발견은 문제를 ‘신비로운 현상’에서 해결 가능한 엔지니어링 작업으로 변환합니다.
이 기사는 AI가 1차 출처를 기반으로 생성했습니다.