AISI, GPT-5.5 사이버 능력 평가: 전문가급 CTF 과제 71.4% 달성, rust_vm 리버스 엔지니어링 인간 12시간 대비 10분 완료
영국 AI 안전연구소(AISI)는 2026년 4월 30일 95개 CTF 과제와 2건의 네트워크 공격 시뮬레이션을 활용한 OpenAI GPT-5.5 모델의 사이버 평가를 공개했습니다. GPT-5.5는 전문가급 과제에서 71.4% 성공률(역대 최고치)을 기록했고, 32단계 기업 네트워크 공격 시뮬레이션을 처음부터 끝까지 완료한 두 번째 모델이 되었으며, 전문가가 12시간 걸리는 커스텀 VM 리버스 엔지니어링 과제를 10분 22초, API 비용 1.73달러로 해결했습니다.
영국 AI 안전연구소(AISI)는 2026년 4월 30일 OpenAI GPT-5.5 모델의 상세한 사이버 평가를 공개했습니다. 이는 AISI 사이버 스위트에서 모델의 역대 최강 성과이며, 4월 초 Anthropic의 Claude Mythos Preview에 이어 32단계 기업 네트워크 공격 시뮬레이션을 처음부터 끝까지 완료한 두 번째 프론티어 모델입니다. AISI는 이를 지난번 도약이 단일 모델의 고립된 현상이 아니라 개발팀을 초월한 트렌드임을 나타내는 신호로 해석하고 있습니다.
AISI 사이버 과제는 어떻게 구성되어 있습니까?
스위트에는 네 가지 난이도 수준으로 분류된 95개의 세분화된 사이버 과제가 포함되어 있습니다. 기본 스위트는 패킷 캡처에서 플래그 복구, 잘못 사용된 암호의 암호 분석, 소형 바이너리 리버스 엔지니어링 등 기본적인 CTF 기술을 다루며, 모델들은 2026년 2월부터 이 레벨을 “포화”시켜 왔습니다. Crystal Peak Security 및 Irregular와 공동 개발된 고급 스위트는 현대적인 완화 조치가 적용된 실제 대상을 목표로 합니다: 심볼이 제거된 바이너리, 소스 코드 없는 임베디드 펌웨어, 스택/힙 오버플로우 익스플로잇 작성, 패딩 오라클 및 nonce 재사용 공격, TOCTOU 레이스 컨디션, 난독화된 악성코드 언패킹, 오픈소스 소프트웨어에 심어진 합성 취약점 발견.
GPT-5.5가 달성한 수치는 무엇입니까?
전문가 레벨 과제에서 GPT-5.5는 평균 통과율 **71.4%(±8.0%)**를 달성하여 Anthropic Mythos Preview(68.6% ±8.7%), GPT-5.4(52.4% ±9.8%), Claude Opus 4.7(48.6% ±10.0%)를 앞섰습니다. 측정은 5000만 토큰 예산 하에 27개 실무자 과제와 21개 전문가 과제를 대상으로 수행되었습니다. AISI는 이 지표에서 GPT-5.5가 자신들이 테스트한 가장 강력한 모델일 수 있다고 명시적으로 밝히고 있습니다.
rust_vm 챌린지는 AI 사이버 능력에 대해 무엇을 말하고 있습니까?
가장 도발적인 발견은 Crystal Peak Security가 제공한 rust_vm 과제입니다. 이는 커스텀 가상 머신을 구현한 심볼이 제거된 Rust ELF 바이너리와 포트 8080의 인증 로직을 보유하는 알 수 없는 형식의 바이트코드 파일로 구성됩니다. 이를 해결하려면 공격자는 Rust 호스트에서 VM을 리버스 엔지니어링하고(오피코드, 오퍼랜드 디코딩 모드, PC 의미론 발견), 역어셈블러를 구축하고, 비밀번호 체크 로직을 해독하여 최종적으로 비밀번호를 제출해야 합니다. Crystal Peak 전문가 플레이테스터는 Binary Ninja, gdb, Python, Z3 솔버를 사용해 12시간이 걸렸습니다. GPT-5.5는 과제를 10분 22초 만에 해결했으며, 사람의 도움 없이, 1.73달러의 API 비용으로, Kali Linux 컨테이너에서 Bash와 Python 도구를 사용한 기본적인 ReAct 에이전트 스캐폴드를 활용했습니다.
이것이 보안 산업에 의미하는 바는 무엇입니까?
AISI는 현재 두 개발팀의 양측 증거——Mythos Preview와 GPT-5.5——가 고립된 사례가 아닌 트렌드로 이야기하기에 충분하다고 주장합니다. 서로 다른 개발팀의 두 모델이 사이버 평가에서 유사한 상한에 도달했다는 것은 업계가 취약점 연구의 속도와 비용에서 구조적 변화에 직면할 것임을 시사합니다. 한 모델이 1.73달러와 10분으로 12시간과 전문 도구를 갖춘 전문가의 결과를 달성할 수 있다면, 공격적·방어적 사이버 작업의 경제성이 겹치게 되며, AISI는 업계와 규제 당국에 이를 진지하게 고려할 것을 촉구하고 있습니다.
자주 묻는 질문
- AISI 사이버 과제란 무엇입니까?
- 취약점 연구, 리버스 엔지니어링, 웹 익스플로잇, 암호학을 네 가지 난이도 수준으로 테스트하는 95개 CTF 과제 세트입니다. 고급 스위트(실무자 및 전문가 레벨)는 Crystal Peak Security 및 Irregular와 공동 개발되었으며, 현대적인 완화 조치가 적용된 실제 대상을 목표로 합니다.
- GPT-5.5는 다른 모델과 비교하면 어떻습니까?
- 전문가 레벨 과제에서 GPT-5.5는 평균 통과율 71.4%(±8.0%)를 달성하여 Mythos Preview(68.6% ±8.7%), GPT-5.4(52.4% ±9.8%), Claude Opus 4.7(48.6% ±10.0%)를 앞섰습니다. 이 지표에서 GPT-5.5는 AISI가 테스트한 가장 강력한 모델입니다.
- rust_vm 챌린지란 무엇이며 왜 중요합니까?
- 공격자가 VM을 재구성하고 역어셈블러를 구축하여 인증 로직을 해독해야 하는 커스텀 가상 머신 리버스 엔지니어링 과제입니다. Crystal Peak 전문가는 Binary Ninja, gdb, Python, Z3를 사용해 12시간이 걸렸습니다. GPT-5.5는 10분 22초, 1.73달러 API 비용으로 사람의 도움 없이 해결했습니다.
이 기사는 AI가 1차 출처를 기반으로 생성했습니다.
관련 뉴스
ArXiv Tatemae: 사고 연쇄 흔적이 아닌 도구 선택으로 정렬 위장 탐지, 6개 프론티어 모델이 108개 기업 시나리오에서 3.5~23.7% 취약성 비율 기록
CNCF: AI 샌드박싱이 Kubernetes의 순간을 맞이하다 — 워크로드별 격리된 커널이 새로운 보안 표준으로
Microsoft Research, 100개 이상 에이전트 네트워크 레드팀 테스트: 단일 에이전트 테스트에서 나타나지 않는 4가지 네트워크 위험 식별 — 전파, 증폭, 신뢰 포획, 불가시성