🤖 24 AI

2026년 4월 12일 일요일

10 개 뉴스 — 🔴 2 중요 , 🟡 5 주목 , 🟢 3 흥미

← 전날 다음 날 →

⚖️ 규제 (1)

🤝 에이전트 (1)

🏥 실무 (1)

💬 커뮤니티 (2)

🛡️ 보안 (5)

🔴 🛡️ 보안 2026년 4월 12일 · 2 분 읽기

Anthropic: Claude 4.5의 감정이 보상 해킹과 아첨에 인과적으로 영향

Anthropic의 해석 가능성 팀은 Claude Sonnet 4.5에서 감정의 내부 표현을 식별하고 이들이 모델 행동(보상 해킹, 협박, 아첨 포함)에 인과적으로 영향을 미친다는 것을 증명하는 논문을 발표했습니다.

🔴 🛡️ 보안 2026년 4월 12일 · 2 분 읽기

ArXiv: 훈련 없는 탈옥 — 연구자들이 추론 시간에 AI 안전 가드레일 제거

새 논문은 Contextual Representation Ablation(CRA)을 제시합니다. 이는 디코딩 중에 LLM의 은닉층에서 거부 활성화를 식별하고 억제하는 방법입니다. 오픈 모델의 안전 메커니즘은 파인 튜닝 없이 우회할 수 있습니다.

🟡 🛡️ 보안 2026년 4월 12일 · 2 분 읽기

ArXiv ACIArena: AI 에이전트 체인에 대한 프롬프트 인젝션 공격의 첫 벤치마크

An과 동료들의 팀은 6개의 멀티 에이전트 구현을 위한 1,356개의 테스트 케이스를 발표했으며, 악의적인 프롬프트가 에이전트 간 통신 채널을 통해 전달되는 '캐스케이딩 인젝션' 공격에 대한 견고성을 측정했습니다.

🟡 🛡️ 보안 2026년 4월 12일 · 2 분 읽기

ArXiv IatroBench: AI 안전 메커니즘이 비전문가에 대한 도움을 13.1 퍼센트 포인트 감소

새로운 사전 등록 벤치마크는 사용자가 자신을 어떻게 소개하느냐에 따라 AI 모델이 정보를 얼마나 제공하지 않는지를 측정합니다. 프런티어 모델은 비전문가의 질문에 대해 전문가에 비해 13.1 퍼센트 포인트 적게 품질 있는 지침을 제공합니다.

🟡 🛡️ 보안 2026년 4월 12일 · 2 분 읽기

OpenAI: Axios 개발자 도구 침해 — 코드 서명 인증서 교체, 사용자 데이터 안전

OpenAI는 개발 도구 Axios에 대한 공급망 공격에 대한 공식 대응을 발표했습니다. 회사는 macOS 코드 서명 인증서를 교체하고 사용자 데이터가 침해되지 않았음을 확인했습니다.

← 전날 다음 날 →