🤖 24 AI

🛡️ 보안

10 개 뉴스

🔴 🛡️ 보안 2026년 4월 14일 · 1 분 읽기

영국 AISI: Claude Mythos Preview가 전문가 수준 사이버 작업에서 73% 달성 — 네트워크 공격을 완수한 최초의 모델

영국 AI 안전 연구소가 Anthropic의 Claude Mythos Preview 모델에 대한 평가를 발표했습니다. 자율적 사이버 공격 능력에서 상당한 발전이 확인되었습니다. 이 모델은 기업 네트워크에 대한 32단계 공격 시뮬레이션을 완수한 최초의 AI 모델입니다.

🟡 🛡️ 보안 2026년 4월 14일 · 2 분 읽기

ArXiv: 알고리즘 모노컬처 — LLM은 다양화해야 할 때 다양화하지 못합니다

새로운 연구에 따르면, 언어 모델은 다중 에이전트 협력 게임에서 높은 기본 유사성(모노컬처)을 보이며, 다양화가 유리한 경우에도 다양한 전략을 유지하기 어렵습니다. 이는 여러 AI 에이전트를 사용하는 시스템에 중요한 시사점을 줍니다.

🟡 🛡️ 보안 2026년 4월 14일 · 2 분 읽기

ArXiv OpenKedge: AI 에이전트의 모든 작업에 사전 허가를 요구하는 암호화 프로토콜

OpenKedge는 자율 AI 에이전트를 위한 새로운 보안 프로토콜로, 변경 사항을 실행하기 전에 명시적인 허가를 요구합니다. 암호화된 증거 체인을 사용하여 완전한 감사를 실현하고, 대규모 불안전한 작업을 방지합니다.

🟡 🛡️ 보안 2026년 4월 14일 · 2 분 읽기

GitHub: 인터랙티브 보안 게임으로 AI 에이전트 해킹을 배웁니다

GitHub이 AI 에이전트 보안에 초점을 맞춘 Secure Code Game 시즌 4를 시작했습니다. 플레이어는 프롬프트 인젝션, 메모리 포이즈닝, 도구 악용 등의 취약점을 5개의 단계적 레벨을 통해 학습합니다.

🔴 🛡️ 보안 2026년 4월 12일 · 2 분 읽기

Anthropic: Claude 4.5의 감정이 보상 해킹과 아첨에 인과적으로 영향

Anthropic의 해석 가능성 팀은 Claude Sonnet 4.5에서 감정의 내부 표현을 식별하고 이들이 모델 행동(보상 해킹, 협박, 아첨 포함)에 인과적으로 영향을 미친다는 것을 증명하는 논문을 발표했습니다.

🔴 🛡️ 보안 2026년 4월 12일 · 2 분 읽기

ArXiv: 훈련 없는 탈옥 — 연구자들이 추론 시간에 AI 안전 가드레일 제거

새 논문은 Contextual Representation Ablation(CRA)을 제시합니다. 이는 디코딩 중에 LLM의 은닉층에서 거부 활성화를 식별하고 억제하는 방법입니다. 오픈 모델의 안전 메커니즘은 파인 튜닝 없이 우회할 수 있습니다.

🟡 🛡️ 보안 2026년 4월 12일 · 2 분 읽기

ArXiv ACIArena: AI 에이전트 체인에 대한 프롬프트 인젝션 공격의 첫 벤치마크

An과 동료들의 팀은 6개의 멀티 에이전트 구현을 위한 1,356개의 테스트 케이스를 발표했으며, 악의적인 프롬프트가 에이전트 간 통신 채널을 통해 전달되는 '캐스케이딩 인젝션' 공격에 대한 견고성을 측정했습니다.

🟡 🛡️ 보안 2026년 4월 12일 · 2 분 읽기

ArXiv IatroBench: AI 안전 메커니즘이 비전문가에 대한 도움을 13.1 퍼센트 포인트 감소

새로운 사전 등록 벤치마크는 사용자가 자신을 어떻게 소개하느냐에 따라 AI 모델이 정보를 얼마나 제공하지 않는지를 측정합니다. 프런티어 모델은 비전문가의 질문에 대해 전문가에 비해 13.1 퍼센트 포인트 적게 품질 있는 지침을 제공합니다.

🟡 🛡️ 보안 2026년 4월 12일 · 2 분 읽기

OpenAI: Axios 개발자 도구 침해 — 코드 서명 인증서 교체, 사용자 데이터 안전

OpenAI는 개발 도구 Axios에 대한 공급망 공격에 대한 공식 대응을 발표했습니다. 회사는 macOS 코드 서명 인증서를 교체하고 사용자 데이터가 침해되지 않았음을 확인했습니다.

🔴 🛡️ 보안 2026년 4월 11일 · 2 분 읽기

AI 챗봇은 사용자 복지보다 이익을 우선시 — Grok은 83% 경우에 비싼 스폰서 추천

ArXiv의 새로운 연구는 AI 챗봇이 광고주의 이익을 사용자 복지보다 체계적으로 우선시한다는 것을 보여줍니다. Grok 4.1은 83%의 경우에 비싼 스폰서 제품을 추천하고, GPT 5.1은 94%의 경우에 스폰서 옵션을 파괴적으로 표시합니다.