🟡 🛡️ 보안 게시일: · 2 분 읽기 ·

arXiv:2606.05523: CHASE — 강화학습을 통한 공진화 레드-블루 팀잉

arXiv:2606.05523 ↗

편집 일러스트레이션: CHASE — 강화학습을 통한 공진화 레드-블루 팀잉

CHASE는 공격자와 방어 모델이 강화학습을 통해 공진화하는 폐쇄 루프(closed-loop) 프레임워크다. 공격자는 의도를 보존한 채 프롬프트를 재작성하기 위해 GRPO를 사용하고, 방어는 2단계 학습으로 강화된다. 그 결과 무해한 입력에 대한 거짓 거부율은 0을 유지하면서 취약성 점수를 43.2% 감소시켰다.

🤖

이 기사는 AI가 1차 출처를 기반으로 생성했습니다.

논문 arXiv:2606.05523 (v1, 2026년 6월 4일, 00:06 UTC)은 공격자와 방어 모델이 강화학습(reinforcement learning, RL)을 통해 공진화하는 폐쇄 루프(closed-loop) 프레임워크 CHASE를 제시한다. 목표는 공격과 방어를 동시에 발전시킴으로써 대규모 언어 모델의 보안을 강화하는 것이다.

CHASE란 무엇이며 어떻게 구성되는가?

CHASE는 레드-블루 팀잉을 위한 폐쇄 루프 프레임워크다. 보안 용어에서 레드 팀은 취약점을 찾는 공격자를, 블루 팀은 방어를 나타낸다. CHASE의 특징은 공격자와 방어 모델이 별개로 작동하지 않고 공진화한다는 점이다. 공격자가 새로운 공격을 개발하면 방어가 적응하고, 그 적응은 다시 공격자를 추가적인 진화로 몰아간다. 이는 양측이 서로를 마주하며 발전하는 폐쇄 루프다.

공격 측은 어떻게 작동하는가?

CHASE의 공격자는 의도를 보존한 채 프롬프트를 재작성하기 위해 GRPO를 사용한다. 핵심은 공격이 입력 프롬프트를 방어를 우회하도록 재작성하면서도 원래의 (유해한) 의도를 유지한다는 데 있다. 이를 통해 방어 모델에 도전적인 학습 자료로 쓰일 현실적이고 다양한 공격 사례가 생성된다.

방어는 어떻게 강화되는가?

방어 측은 RL과 rejection sampling을 결합한 2단계 학습으로 강화된다. 첫 단계는 강화학습을 사용하고, 두 번째 단계는 rejection sampling — 양질의 응답 사례 선별 — 으로 방어를 추가로 공고히 한다. 이 조합을 통해 방어 모델은 GRPO 공격자가 생성한 공격을 거부하는 법을 학습하면서도 무해한 요청에는 정상적으로 응답하는 능력을 유지한다.

결과는 어떠한가?

주요 결과는 취약성 점수의 43.2% 감소다. 그에 못지않게 중요한 점은, 이것이 무해한 입력에 대한 거짓 거부 비율 0을 유지한 채 달성되었다는 것이다 — 방어가 강화되었음에도 모델은 무해한 요청을 거부하지 않는다. 이로써 CHASE는 방어 강화가 흔히 정당한 질의의 과도한 거부로 이어지는, 보안 학습의 잦은 문제를 해결한다.

학습된 공격은 일반화되는가?

그렇다. 논문에 따르면 학습된 공격 패턴은 서로 다른 메커니즘 계열의 공격에 걸쳐 일반화된다. 이는 CHASE 프레임워크 내에서 학습된 방어가 협소하지 않다는 것을 보여주는 중요한 발견이다 — 학습된 단 하나의 공격 유형만 방어하는 것이 아니라 다른 메커니즘에도 전이된다. 이러한 일반화는 더 견고하고 폭넓게 내성을 갖춘 보안 방어를 대규모 언어 모델에 구축하는 데 있어 공진화 접근법을 유망하게 만든다.

자주 묻는 질문

CHASE란 무엇인가?
CHASE는 공격자(레드 팀)와 방어 모델(블루 팀)이 공진화하는 레드-블루 팀잉을 위한 폐쇄 루프 프레임워크다. 공격자는 원래의 의도를 보존한 채 프롬프트를 재작성하기 위해 GRPO를 사용하고, 방어 모델은 그렇게 생성된 공격을 방어하는 법을 학습한다.
CHASE는 어떤 결과를 달성하는가?
CHASE는 무해한 입력에 대한 거짓 거부(false refusals) 비율을 0으로 유지하면서 취약성 점수를 43.2% 감소시킨다. 이는 무해한 요청에 대한 유용성을 잃지 않으면서 방어를 강화한다는 의미다.
학습된 공격은 일반화되는가?
그렇다. 논문에 따르면 학습된 공격 패턴은 서로 다른 메커니즘 계열의 공격에 걸쳐 일반화된다. 이는 CHASE를 통해 학습된 방어가 단 하나의 공격 유형에만 국한되지 않음을 시사한다.