안전

레드팀 (red team)

프롬프트 인젝션, 탈옥, 오용 같은 공격 기법으로 AI 시스템을 구조적으로 테스트하여 프로덕션 투입 전에 취약점과 위험한 행동을 발견하는 실천입니다.

**레드팀 (red team)**은 자격을 갖춘 테스터 집단이 자사 AI 시스템을 의도적으로 공격하여, 시스템이 위험하거나, 정렬되지 않았거나, 원치 않는 일을 하는 시나리오를 발견하는 실천입니다 — 악의적인 외부 행위자나 유료 기자가 그것을 발견하기 전에.

이 용어는 군사 및 사이버 보안에서 차용되었지만, AI 레드팀은 자체 특수성을 가지고 있습니다:

  • 프롬프트 인젝션 — 모델이 시스템 프롬프트를 무시하거나 숨겨진 지시를 드러내도록 유도하는 시도
  • 탈옥 (Jailbreak) — 안전 학습을 우회하여 모델이 보통 거부할 콘텐츠(무기, 인프라 공격, 불법 조언)를 생성하도록 함
  • 능력 도출 (Capability elicitation) — 모델이 신중하게 도움을 받았을 때 위험한 작업을 수행할 수 있는지 확인
  • 오용 시나리오 — 피싱 이메일, 악성 코드, 허위 정보 작성
  • 편향과 공정성 — 고정관념, 차별적 결정 생성

대형 연구소(OpenAI, Anthropic, Google DeepMind)는 이제 일상적으로 “system cards”를 작성하고 공개하며, 각 프론티어 모델의 레드팀 절차를 자세히 설명합니다. EU AI Act와 UK AISI 평가는 시스템 위험을 가진 GPAI에 대해 레드팀을 요구합니다.

레드팀은 AI 안전정렬 기법을 보완하는 것이지 대체하는 것이 아닙니다 — 레드팀이 찾지 못한 것은 프로덕션에서 사용자나 공격자가 찾을 것입니다. 전문 레드팀 회사와 버그 바운티 프로그램의 전체 산업이 2023년 이후 생겨났습니다.

출처

관련 항목