AI 보안 커널: 1000회 사이클에서 탈출 0건

The Unfireable Safety Kernel은 Rust 기반 보안 레이어로, 프로세스 분리와 암호화 검증을 통해 AI 에이전트 정렬을 외부에서 강제합니다. 1000회 테스트 사이클에서 704회의 탈출 시도가 모두 차단되었으며 단 한 건의 우회도 없었습니다.

내부 보안 메커니즘은 왜 충분하지 않습니까?

코드 작성, 명령 실행, 네트워크 요청 전송과 같은 도구에 접근할 수 있는 AI 에이전트는 이러한 제어가 동일한 프로세스 내에 있을 경우 이론적으로 자신의 보안 제어를 수정할 수 있습니다. Seth Dobrin과 Łukasz Chmiel은 논문 『The Unfireable Safety Kernel: Execution-Time AI Alignment for AI Agents and Other Escapable AI Systems』(arXiv:2606.26057, 2026년 6월 24일 제출)에서 아키텍처적 해결책을 제안합니다. 인증 레이어를 에이전트의 손이 닿지 않는 곳으로 이동시키는 것입니다.

AI 정렬 — AI 시스템의 행동을 인간의 의도와 가치에 맞추는 것 — 은 지금까지 주로 학습 시점(RLHF, Constitutional AI)에 적용되어 왔습니다. 이 논문은 정렬을 에이전트가 무엇을 ‘배웠는지’와 무관하게 실행 시점에도 해결해야 할 문제로 다룹니다.

커널은 어떻게 작동합니까?

Unfireable Safety Kernel은 Rust 프로그래밍 언어로 구현되며 네 가지 형식적 속성에 기반합니다. 프로세스 분리(커널과 에이전트가 별도 프로세스에서 실행), 행동 실행 전 강제, fail-closed 동작(모든 오류가 통과 대신 시스템을 종료), 모든 인증 결정에 대한 암호화 서명 증거입니다.

에이전트 소프트웨어의 일부이므로 취약한 내부 접근 방식과 달리, 외부 커널은 에이전트가 접근할 수 없습니다. 에이전트가 동일한 프로세스에 존재하지 않기 때문에 물리적으로 비활성화할 수 없는 킬 스위치와 같습니다.

결과: 1000회 사이클에서 탈출 0건

저자들은 Z3 SMT 정리 증명기와 Kani 경계 모델 검사를 결합하여 시스템을 형식적으로 검증했습니다. 실험적 테스트는 놀라운 결과를 보여줍니다. 자율 월드 모델의 1000회 사이클 중 보안 코어에 대한 704회의 공격 시도가 모두 단 한 건의 성공적인 탈출 없이 차단되었습니다. 또한 6240회의 인증 라운드 트립이 수행되었으며 우회 0건이 기록되었습니다. 추가로 300건의 킬 스위치 시나리오 — 전부 차단되었습니다.

내부 접근 방식과의 비교가 핵심입니다. 기존의 내부 보안 레이어는 에이전트의 협력에 의존하며 자체 수정으로 비활성화될 수 있는 반면, 외부 커널은 에이전트의 행동에 관계없이 변경되지 않습니다.

맥락과 적용

논문은 실행 시점 정렬을 RLHF와 같은 학습 기반 방법의 보완적 레이어로 자리매김합니다 — 대체물이 아닌 두 번째 방어선으로서입니다. 이 접근 방식은 내부 제어 실패가 심각한 결과를 초래할 수 있는 중요 인프라에 접근할 수 있는 자율 에이전트가 프로덕션 환경에서 사용되는 경우에 특히 관련성이 높습니다.

자주 묻는 질문

AI 에이전트 내부에 보안 제어를 구축하는 것만으로는 왜 충분하지 않습니까?

도구에 접근할 수 있는 에이전트는 자신의 런타임을 잠재적으로 수정하여 내부 제어를 우회할 수 있습니다. 별도 프로세스에서 실행되는 외부 커널은 에이전트가 접근할 수 없으므로 비활성화할 수 없습니다.

Unfireable Safety Kernel의 네 가지 핵심 속성은 무엇입니까?

프로세스 분리, 실행 전 행동 강제, fail-closed 동작(오류 시 시스템 종료), 모든 결정에 대한 암호화 서명 증거입니다.

arXiv:2606.26057: The Unfireable Safety Kernel — AI 에이전트의 외부 실행 시점 정렬

내부 보안 메커니즘은 왜 충분하지 않습니까?

커널은 어떻게 작동합니까?

결과: 1000회 사이클에서 탈출 0건

맥락과 적용

자주 묻는 질문

출처

관련 뉴스