환각 (Hallucination)

환각 (Hallucination) 은 AI 모델, 특히 대규모 언어 모델이 유창하고 자신감 있는 문체로 사실에 반하는 출력을 생성하는 현상입니다. 대표적인 형태로는 존재하지 않는 논문에 대한 허구의 인용, 날조된 발언 인용, 가상의 판례, 잘못된 API 서명, 그럴듯하지만 거짓인 인물 정보 등이 있습니다. 모델이 “거짓말”을 하는 것이 아니라, 통계적으로 확률이 높은 이어지는 내용을 생성한 결과가 우연히 사실이 아닌 것입니다.

원인으로는 학습 데이터의 공백, 학습 데이터 내의 상충된 정보, 지어내기를 유발하는 모호한 프롬프트, 그리고 다음 토큰 예측이라는 근본적인 특성(진실보다 그럴듯함을 최적화함)이 있습니다.

완화 전략:

검색 증강 생성 (RAG): 검증된 지식 베이스를 바탕으로 답변을 근거 있게 만들기
인용: 모델이 프롬프트의 소스를 인용하도록 요구하기
추론 모델: 긴 사고의 연쇄(chain-of-thought)로 일부 오류 클래스 감소
검증 모델: 두 번째 모델이 첫 번째 모델의 주장을 확인
낮은 온도: 다양성을 줄이고 창의적 샘플링을 억제
시스템 프롬프트: “확신이 없으면 ‘모릅니다’라고 답하세요”를 명시

환각률은 GPT-3.5 시대에서 현재의 프론티어 모델에 이르기까지 크게 감소했지만, 문제가 완전히 해결된 것은 아닙니다. 프로덕션 AI 시스템은 신중한 평가가 필요하며, LLM 출력은 검증 없이 권위 있는 정보로 취급해서는 안 된다는 사용자 교육이 중요합니다.

출처

관련 항목