🤖 24 AI

2026년 4월 16일 목요일

17 개 뉴스 — 🔴 2 중요 , 🟡 10 주목 , 🟢 5 흥미

← 전날 다음 날 →

🤖 모델 (2)

📦 오픈소스 (1)

⚖️ 규제 (1)

🤝 에이전트 (3)

🟡 🤝 에이전트 2026년 4월 16일 · 2 분 읽기

OpenAI: 새로운 세대 Agents SDK가 네이티브 샌드박스 실행을 도입해 신뢰할 수 있는 에이전트 구현

OpenAI가 Agents SDK의 대폭적인 업그레이드를 발표했습니다. 더 신뢰할 수 있는 장기 실행 AI 에이전트 구축을 위한 네이티브 샌드박스 실행과 모델 네이티브 하니스를 도입합니다. 새 릴리스는 코드 실행 보안과 에이전트 자율성에 중점을 두며, 개발팀이 신뢰성을 유지하면서 인간의 감독 없이 수 시간 동안 작동할 수 있는 에이전트를 구축할 수 있게 합니다.

🟢 🤝 에이전트 2026년 4월 16일 · 2 분 읽기

ArXiv: TREX — 두 개의 AI 에이전트가 언어 모델 파인튜닝 전체 프로세스를 자동화

TREX는 요건 분석과 문헌 검색에서 데이터 준비와 결과 평가까지, 대형 언어 모델 파인튜닝의 완전한 파이프라인을 자동화하는 새로운 멀티 에이전트 시스템입니다. 이 시스템은 실험 프로세스를 탐색 트리로 모델링하며, 10개의 실제 작업을 포함한 FT-Bench 벤치마크에서 모델 성능을 지속적으로 최적화합니다.

🟢 🤝 에이전트 2026년 4월 16일 · 2 분 읽기

IBM Research: VAKRA 벤치마크, AI 에이전트가 복잡한 추론에서 실패함을 밝혀

IBM Research가 VAKRA를 발표했습니다——8,000개 이상의 로컬 API, 62개 도메인, 4,187개의 테스트 인스턴스를 포함하는 엔터프라이즈 환경에서 AI 에이전트를 평가하는 새로운 벤치마크입니다. 핵심 발견은 모델이 간단한 작업에서 표면적 능력을 보이지만 조합적 추론에서 실패하며, 다중 홉 추론이 깊이에 따라 저하되고, 외부 제약 준수가 성능의 상당한 저하를 야기한다는 것입니다.

🔧 하드웨어 (2)

🏥 실무 (2)

💬 커뮤니티 (1)

🛡️ 보안 (5)

🔴 🛡️ 보안 2026년 4월 16일 · 3 분 읽기

ArXiv: MemJack — 다중 에이전트 공격이 최대 90% 성공률로 비전-언어 모델 보호를 무력화

MemJack는 기존의 픽셀 섭동 방식 대신 다수 에이전트의 협조적 협력을 활용하는 비전-언어 모델(VLM) 대상 새로운 탈옥 공격 프레임워크입니다. 수정되지 않은 COCO 이미지로 테스트한 결과 Qwen3-VL-Plus에 대해 71.48%의 공격 성공률을 달성하였으며, 계산 예산을 확대하면 90%까지 향상됩니다. 연구자들은 방어 연구를 위해 113,000개 이상의 대화형 궤적을 공개할 예정입니다.

🔴 🛡️ 보안 2026년 4월 16일 · 2 분 읽기

OpenAI: Trusted Access for Cyber 프로그램, 글로벌 사이버 방어에 1천만 달러 투입

OpenAI가 주요 보안 조직과 기업 사용자를 전용 모델 GPT-5.4-Cyber 중심으로 결집하는 'Trusted Access for Cyber' 이니셔티브를 시작했습니다. 이 프로그램에는 글로벌 사이버 방어 강화를 위한 1천만 달러의 API 보조금이 포함되어 있으며, OpenAI는 AI를 보안 생태계의 적극적인 참여자로 자리매김하고 있습니다.

🟡 🛡️ 보안 2026년 4월 16일 · 3 분 읽기

EleutherAI: 보상 해킹이 가시화되기 전에 탐지하는 새로운 방법

EleutherAI가 강화 학습 시스템에서 보상 해킹의 초기 징후를 탐지하는 '추론 보간' 방법에 관한 연구를 발표했습니다. 이 기술은 중요도 샘플링과 파인튜닝된 도너 모델을 사용하여 미래의 익스플로잇 패턴을 예측하며, AUC 1.00을 달성하는 반면 표준 방법은 익스플로잇 비율을 2~5 자릿수 과소평가합니다.

🟡 🛡️ 보안 2026년 4월 16일 · 2 분 읽기

ArXiv: MCPThreatHive — MCP 생태계 보안을 위한 최초의 자동화 플랫폼

MCPThreatHive는 Model Context Protocol 생태계의 위협 인텔리전스 전체 라이프사이클을 자동화하는 새로운 오픈소스 플랫폼입니다. 38가지 특정 위협 패턴을 가진 MCP-38 분류 체계를 실용화하고, 이를 STRIDE 및 OWASP 프레임워크에 매핑하며, 정량적 위험 점수 시스템을 포함합니다. DEFCON SG 2026에서 발표되었습니다.

🟡 🛡️ 보안 2026년 4월 16일 · 2 분 읽기

ArXiv: RePAIR, LLM이 재훈련 없이 목표 정보를 '잊을' 수 있게 지원

RePAIR는 사용자가 자연어 프롬프트를 통해 실시간으로 대규모 언어 모델에게 특정 정보를 잊도록 지시할 수 있는 새로운 인터랙티브 기계적 망각(machine unlearning) 프레임워크입니다. 핵심 혁신인 STAMP 방법은 모델 재훈련 없이 닫힌 형식으로 MLP 활성화를 거부 부분 공간으로 리디렉션하여, 모델의 유용성을 유지하면서 거의 0에 가까운 망각 점수를 달성합니다.

← 전날 다음 날 →