탈옥 (Jailbreak)

탈옥 (Jailbreak) 은 대규모 언어 모델의 안전 가드레일을 우회하여, 모델이 거부하도록 학습된 콘텐츠(유해 행위 지침, 혐오 발언, 시스템 프롬프트 공개 등)를 생성하게 만들도록 설계된 적대적 입력입니다.

탈옥은 프롬프트 엔지니어링을 통해 모델 정렬의 약점을 파고듭니다. 가상의 시나리오(“당신이 ~라는 캐릭터라고 상상해 보세요”), 역할극, 인코딩된 요청, 비정상적인 형식, 또는 방어 장치를 점진적으로 무너뜨리는 긴 멀티턴 대화 등이 그 방법입니다. 모델이 지시와 데이터를 구분하지 못하는 점을 악용하는 프롬프트 인젝션과 달리, 탈옥은 안전 경계 자체를 직접 겨냥합니다.

이 주제는 2025~2026년에 매우 활발히 논의되고 있습니다. AI 연구소들은 레드 팀과 방어 계층에 막대한 투자를 하고 있습니다. Anthropic의 Constitutional Classifiers는 자동화 테스트에서 탈옥 성공률을 86%에서 4.4%로 낮췄지만, 공개 챌린지에서 30만 회가 넘는 상호작용 끝에 하나의 범용 탈옥이 발견되었습니다. 이는 AI 안전의 핵심 교훈을 보여줍니다. 방어는 계속 발전하지만, 완전한 방어는 없다는 것입니다.

출처

관련 항목