2026년 5월 7일 목요일

19 개 뉴스 — 🔴 4 중요 , 🟡 14 주목 , 🟢 1 흥미

← 전날 다음 날 →

🤖 모델 (3)

🟡 🤖 모델 2026년 5월 7일 · 2 분 읽기

arXiv:2605.03195: Terminus-4B — 40억 파라미터 터미널 실행 모델이 SWE-Bench Pro에서 Claude Opus·GPT-5.3-Codex와 동등, 주 에이전트 토큰 약 30% 절감

Editorial illustration: dva koncentrična kruga — manji 4B model za terminal i veći frontier model za planiranje povezani strelicom delegacije zadataka

Terminus-4B는 에이전트 시스템의 터미널 실행에 특화된 40억 파라미터의 Qwen3 파인튜닝 모델입니다. SWE-Bench Pro 벤치마크에서 Claude Sonnet/Opus 및 GPT-5.3-Codex 기준선과 동등하거나 이를 능가하며, 장황한 빌드/테스트 로그를 서브에이전트 컨텍스트에 격리함으로써 주 에이전트의 토큰 소비를 약 30% 줄입니다.

🟡 🤖 모델 2026년 5월 7일 · 2 분 읽기

arXiv:2605.04908: 큐레이션된 제약 데이터베이스를 가진 Gosset이 프런티어 LLM을 3.2배 능가

편집 일러스트: 큐레이션된 제약 데이터베이스를 가진 Gosset이 프런티어 LLM을 3.2배 능가

Gosset은 큐레이션된 제약 데이터를 갖춘 전문 AI 플랫폼으로, 네 개의 프런티어 시스템과의 비교에서 쿼리당 검증된 약물을 3.2배 더 많이 반환했으며, 열 개의 틈새 종양학·면역학 표적에서 100% 정밀도와 완전한 재현율을 달성했습니다.

🟡 🤖 모델 2026년 5월 7일 · 2 분 읽기

Google: Gemini API, 멀티모달 File Search 이미지 검색 및 Interactions API 주요 변경 도입

편집 일러스트: Gemini API, 멀티모달 File Search 및 Interactions API 주요 변경 도입

Google이 gemini-embedding-2 모델을 사용해 Gemini File Search를 멀티모달 이미지 검색으로 확장하고, 시각적 인용을 위해 기반 메타데이터에 media_id를 추가했습니다. 동시에 Interactions API의 주요 변경을 발표했습니다. outputs가 steps로 바뀌며, 새 기본값은 2026년 5월 20일부터, 구 스키마 제거는 2026년 6월 6일입니다.

📦 오픈소스 (1)

⚖️ 규제 (1)

🤝 에이전트 (5)

🔴 🤝 에이전트 2026년 5월 7일 · 2 분 읽기

arXiv:2605.06651: Google DeepMind, AI Co-Mathematician 발표 — FrontierMath Tier 4에서 48% 달성

Editorial illustration: arXiv:2605.06651: Google DeepMind, AI Co-Mathematician 발표 — FrontierMath Tier 4에서 48% 달성

Google DeepMind 팀이 AI 에이전트가 수학자와 열린 문제를 협력하는 대화형 작업 공간인 AI Co-Mathematician에 관한 논문을 발표했다. 이 시스템은 FrontierMath Tier 4 벤치마크에서 48%를 달성해 모든 AI 시스템 중 신기록을 세웠다.

🟡 🤝 에이전트 2026년 5월 7일 · 2 분 읽기

Anthropic: Managed Agents, 멀티에이전트 세션·Outcomes·Webhooks·Vault 갱신 기능을 퍼블릭 베타로 추가

Editorial illustration: dijagram više Claude agenata povezanih u jedan session canvas s vault i webhook ikonama

Claude Managed Agents는 Anthropic의 관리형 자율 에이전트 플랫폼으로, 2026년 5월 6일 퍼블릭 베타에서 네 가지 새 기능이 추가되었습니다. 멀티에이전트 세션, 목표 정의를 위한 Outcomes 메커니즘, 세션과 Vault 라이프사이클 이벤트를 위한 Webhooks, mcp_oauth 자격증명의 백그라운드 갱신이 포함됩니다. 상태별 세션 필터링과 유형·생성 시각별 이벤트 필터링도 추가되었습니다.

🟡 🤝 에이전트 2026년 5월 7일 · 2 분 읽기

GitHub: 컴파일러 이론의 지배자 분석으로 에이전트 동작 검증, 정확도 100% vs 에이전트 자기 평가 82%

Editorial illustration: dijagram graf strukture s istaknutim dominator čvorovima koji predstavljaju esencijalne korake u agentskom izvršavanju

GitHub이 비결정론적 AI 에이전트를 위한 검증 프레임워크를 발표했습니다. 컴파일러 이론의 지배자 분석(Dominator Analysis)을 차용하여 Copilot Coding Agent의 2~10회 성공 실행에서 필수 단계와 선택적 단계를 학습하고, 에이전트 버그와 실제 제품 회귀를 구분하는 데 100% 정확도를 달성합니다.

🟡 🤝 에이전트 2026년 5월 7일 · 2 분 읽기

GitHub: VS Code용 Copilot이 터미널 접근권 및 자체 API 키 지원 획득

편집 일러스트: VS Code용 Copilot이 터미널 접근권 및 자체 API 키 지원 획득

GitHub Copilot for Visual Studio Code는 4월 업데이트 사이클(버전 1.116~1.119)에서 전체 코드베이스의 시맨틱 검색, 열린 터미널에 대한 에이전트 접근권, Anthropic·OpenAI 등 제공업체의 자체 API 키 연결 기능을 획득했습니다.

🟡 🤝 에이전트 2026년 5월 7일 · 2 분 읽기

vLLM: Mooncake 분산 KV 캐시 스토어 통합으로 멀티턴 에이전트 처리량 3.8배, P50 TTFT 46배 개선

Editorial illustration: mreža GPU čvorova povezanih RDMA linkovima sa centralnim distributed KV cache poolom

vLLM이 Mooncake 분산 KV 캐시 스토어를 통합하여 에이전트 턴 간 접두사 재계산을 제거합니다. 12대의 GB200 GPU에서 현실적인 Codex 트레이스로 테스트한 결과, 처리량 3.8배 증가, P50 TTFT(첫 번째 토큰까지의 시간) 46배 감소, 엔드투엔드 레이턴시 8.6배 감소, 캐시 적중률이 1.7%에서 92.2%로 급상승했습니다.

🔧 하드웨어 (1)

🏥 실무 (4)

🟡 🏥 실무 2026년 5월 7일 · 2 분 읽기

Anthropic: Claude Code v2.1.132, 25개 이상의 수정 및 새로운 훅 환경 변수 제공

편집 일러스트: Claude Code v2.1.132, 25개 이상의 수정 및 새로운 훅 환경 변수 제공

Anthropic이 Claude Code v2.1.132를 출시했습니다. 25개 이상의 수정 사항과 두 가지 새로운 환경 변수인 훅 통합용 CLAUDE_CODE_SESSION_ID 및 네이티브 스크롤백용 CLAUDE_CODE_DISABLE_ALTERNATE_SCREEN이 포함됩니다. MCP 서버로 인한 10GB 이상의 RSS 메모리 증가 심각한 버그도 수정되었습니다.

🟡 🏥 실무 2026년 5월 7일 · 1 분 읽기

Anthropic: Claude Code v2.1.133, worktree.baseRef와 레이스 컨디션 수정 제공

Editorial illustration: Claude Code v2.1.133, worktree.baseRef와 레이스 컨디션 수정 제공

Anthropic이 worktree.baseRef, sandbox.bwrapPath/socatPath, 훅의 환경 변수 CLAUDE_EFFORT를 탑재한 Claude Code v2.1.133을 출시했다. 병렬 세션의 레이스 컨디션과 Windows 드라이브 루트 경로 문제를 수정했다. 이번 주 v2.1.131, v2.1.132에 이은 세 번째 릴리스.

🟡 🏥 실무 2026년 5월 7일 · 2 분 읽기

GitHub: 에이전트 워크플로 최적화로 19%~62% 토큰 절감 달성

Editorial illustration: 에이전트 워크플로 최적화로 19%~62% 토큰 절감 달성

GitHub이 프로덕션 에이전트 워크플로를 계측하고 토큰 낭비의 세 가지 주요 원인을 파악했다. 불필요한 MCP 도구, 결정론적 데이터 조회, 잘못 구성된 Bash 규칙이다. 최적화를 통해 워크플로별 19%~62%의 토큰 절감을 달성했다.

🟢 🏥 실무 2026년 5월 7일 · 2 분 읽기

arXiv:2605.04012: SymptomAI가 Fitbit 앱에서 약 13,917명 환자 대상으로 감별 진단에서 독립 임상의를 능가

Editorial illustration: korisnik razgovara sa SymptomAI agentom u Fitbit aplikaciji dok pozadinski panel prikazuje rangiranu listu dijagnoza

SymptomAI는 Fitbit 앱에 통합된 대화형 AI 에이전트로 약 13,917명의 참가자에서 테스트되었습니다. 임상 평가 하위 집합에서 동일한 대화를 평가한 독립 임상의 대비 오즈비(OR) 2.47을 달성했습니다. 본 연구는 프리프린트입니다.

💬 커뮤니티 (1)

🛡️ 보안 (3)

🟡 🛡️ 보안 2026년 5월 7일 · 2 분 읽기

arXiv:2605.04019: 자동화 레드팀 에이전트가 Meta Llama Scout 대상 85% 성공률 달성, 공격 45종·변환 450종 이상 사용

Editorial illustration: automatizirani agent simultano pokreće desetke napadačkih vektora protiv jezičnog modela na ekranu kontrolne ploče

새 논문이 Dreadnode SDK 기반으로 구축된 에이전트형 레드팀 시스템을 제시합니다. 45종 이상의 공격, 450종 이상의 변환, 130종 이상의 스코어러로 Meta Llama Scout 대상 85%의 성공률을 달성하며, 수동 코딩 없이 보안 테스트를 몇 주에서 몇 시간으로 단축합니다.

🟡 🛡️ 보안 2026년 5월 7일 · 2 분 읽기

arXiv:2605.04785: AgentTrust가 AI 에이전트의 도구 호출을 95~97% 정확도로 차단

편집 일러스트: AgentTrust가 AI 에이전트의 도구 호출을 95~97% 정확도로 차단

AgentTrust는 AI 에이전트의 도구 호출(파일 작업, SQL 쿼리, 셸 명령)을 실행 전에 차단하고 네 가지 판정 중 하나를 반환하는 오픈소스 런타임 시스템입니다. 930개의 테스트 시나리오에서 95~97% 정확도를 달성했으며, 셸 난독화 공격에서는 약 93%의 정확도를 보였습니다.

🟡 🛡️ 보안 2026년 5월 7일 · 2 분 읽기

arXiv:2605.06390: 자동화된 정렬 연구는 보이는 것보다 어렵다

Editorial illustration: arXiv:2605.06390: 자동화된 정렬 연구는 보이는 것보다 어렵다

Geoffrey Irving(DeepMind/Anthropic)을 포함한 4명의 연구자가 쓴 새 논문은 AI 에이전트가 정렬 연구를 신뢰성 있게 자동화할 수 없다고 주장한다. 명확한 평가 기준 없이는 최적화 압력이 설득력 있지만 치명적으로 잘못된 안전 평가를 생성하며, 인간 검토자가 이를 감지하기 어렵다.

← 전날 다음 날 →