arXiv:2605.29068: COLAGUARD, 보안 추론을 잠재 공간으로 이전 — F1 +8.24, 토큰 22.4배 감소
COLAGUARD는 대형 언어 모델용 보안 가드레일 시스템으로, 커리큘럼 학습을 활용해 보안 추론을 명시적 텍스트 사고 체인에서 연속 잠재 공간으로 이전합니다. 이 시스템은 8개 보안 데이터셋에서 Llama Guard 3 대비 매크로-F1 8.24점 향상을 달성하면서 생성 토큰 수를 22.4배 줄이고 GuardReasoner 기준선 대비 12.9배 빠른 추론 속도를 보여줍니다.
이 기사는 AI가 1차 출처를 기반으로 생성했습니다.
Siddharth Sai, Xiaofei Wen, Muhao Chen 연구자들이 COLAGUARD를 발표했습니다.
기존 가드레일이 느리거나 부정확한 이유
Llama Guard 3: 빠르지만 정밀도가 낮습니다. GuardReasoner: 정확하지만 계산 비용이 높습니다(추론 토큰 수백~수천 개).
COLAGUARD는 추론을 잠재 공간으로 어떻게 이전하나요?
COLAGUARD(Curriculum-based cOntinuous LAtent GUARDrail)는 커리큘럼 학습으로 추론을 연속 잠재 공간으로 이전합니다. 명시적 텍스트 생성 없이 숨겨진 상태를 전파합니다.
정량적 결과
| 지표 | 결과 |
|---|---|
| Llama Guard 3 대비 매크로-F1 | +8.24점 |
| GuardReasoner 대비 토큰 감소 | 22.4배 감소 |
| GuardReasoner 대비 속도 향상 | 12.9배 빠름 |
COLAGUARD의 프로덕션 적용 의미
잠재 추론은 레이턴시와 비용에 영향 없이 고트래픽 보안 시스템을 가능하게 하는 방향을 열어줍니다.
자주 묻는 질문
- COLAGUARD는 기존 가드레일 방식보다 왜 빠른가요?
- 텍스트를 명시적으로 생성하는 대신 잠재 공간에서 추론합니다. 수백~수천 개의 추론 토큰을 생성하는 GuardReasoner와 달리 COLAGUARD는 숨겨진 상태를 전파하여 22.4배 적은 토큰으로 12.9배 빠른 속도를 달성합니다.
- 커리큘럼 학습이 잠재 공간 가드레일에서 어떤 역할을 하나요?
- 커리큘럼 학습은 모델이 점진적으로 복잡한 보안 시나리오를 학습하도록 하여 잠재 공간 표현이 보안 추론 능력을 효과적으로 포착하게 합니다.