안전
가드레일
AI 모델의 입력과 출력을 제약하는 안전 제어 및 필터. 모델 주위에 배치되는 콘텐츠 분류기, 정책 필터, 공격 탐지기를 가리킨다.
가드레일(Guardrails)은 AI 시스템이 허용된 범위 안에 머물도록 입력과 출력을 제약하는 제어 장치를 말한다. 학습을 통해 모델 내부에 내장된 안전성과 달리, 가드레일은 모델 _바깥_에 자리한 별도의 계층으로, 사용자와 대규모 언어 모델 사이에 위치한다.
일반적으로 입력 검사와 출력 검사를 결합한다. 콘텐츠 분류기(혐오·폭력·자해), 개인 식별 정보(PII) 탐지, 주제 필터, 그리고 탈옥과 프롬프트 인젝션 탐지기 등이다. 어느 한 검사라도 통과하지 못하면 응답이 사용자에게 도달하기 전에 차단되거나 수정된다.
2025~2026년에 걸쳐 가드레일은 표준 제품이 되었다. Anthropic의 「Constitutional Classifiers」는 과도한 거부를 최소화하면서 대부분의 탈옥 시도를 걸러내고, OpenAI는 모더레이션·PII·프롬프트 인젝션 검사를 갖춘 구성 가능한 Guardrails 프레임워크를 제공한다. 가드레일은 확률적이고 우회 가능하므로, AI 안전과 엄정한 평가를 대체하는 것이 아니라 보완한다.