2026년 5월 7일 목요일

19 개 뉴스 — 🔴 4 중요 , 🟡 14 주목 , 🟢 1 흥미

🤖 모델 (3)

🟡 🤖 모델 2026년 5월 7일 · 2 분 읽기

arXiv:2605.03195: Terminus-4B — 40억 파라미터 터미널 실행 모델이 SWE-Bench Pro에서 Claude Opus·GPT-5.3-Codex와 동등, 주 에이전트 토큰 약 30% 절감

Editorial illustration: dva koncentrična kruga — manji 4B model za terminal i veći frontier model za planiranje povezani strelicom delegacije zadataka

Terminus-4B는 에이전트 시스템의 터미널 실행에 특화된 40억 파라미터의 Qwen3 파인튜닝 모델입니다. SWE-Bench Pro 벤치마크에서 Claude Sonnet/Opus 및 GPT-5.3-Codex 기준선과 동등하거나 이를 능가하며, 장황한 빌드/테스트 로그를 서브에이전트 컨텍스트에 격리함으로써 주 에이전트의 토큰 소비를 약 30% 줄입니다.

🟡 🤖 모델 2026년 5월 7일 · 2 분 읽기

arXiv:2605.04908: 큐레이션된 제약 데이터베이스를 가진 Gosset이 프런티어 LLM을 3.2배 능가

편집 일러스트: 큐레이션된 제약 데이터베이스를 가진 Gosset이 프런티어 LLM을 3.2배 능가

Gosset은 큐레이션된 제약 데이터를 갖춘 전문 AI 플랫폼으로, 네 개의 프런티어 시스템과의 비교에서 쿼리당 검증된 약물을 3.2배 더 많이 반환했으며, 열 개의 틈새 종양학·면역학 표적에서 100% 정밀도와 완전한 재현율을 달성했습니다.

🟡 🤖 모델 2026년 5월 7일 · 2 분 읽기

Google: Gemini API, 멀티모달 File Search 이미지 검색 및 Interactions API 주요 변경 도입

편집 일러스트: Gemini API, 멀티모달 File Search 및 Interactions API 주요 변경 도입

Google이 gemini-embedding-2 모델을 사용해 Gemini File Search를 멀티모달 이미지 검색으로 확장하고, 시각적 인용을 위해 기반 메타데이터에 media_id를 추가했습니다. 동시에 Interactions API의 주요 변경을 발표했습니다. outputs가 steps로 바뀌며, 새 기본값은 2026년 5월 20일부터, 구 스키마 제거는 2026년 6월 6일입니다.

📦 오픈소스 (1)

🟡 📦 오픈소스 2026년 5월 7일 · 2 분 읽기

AMD: vLLM-ATOM 플러그인, vLLM 코드 수정 없이 Instinct 최적화 제공

Editorial illustration: vLLM-ATOM 플러그인, vLLM 코드 수정 없이 Instinct 최적화 제공

AMD가 소스 코드를 전혀 수정하지 않고 vLLM 프로덕션 프레임워크에 Instinct GPU 최적화를 통합하는 오픈소스 플러그인 vLLM-ATOM을 공개했다. Python entry_points를 통해 자동으로 활성화되며, Kimi-K2.5 및 DeepSeek V3/R1을 포함한 dense 및 MoE 모델을 지원한다. AITER 커널로 fused MoE와 flash attention을 구현한다.

⚖️ 규제 (1)

🔴 ⚖️ 규제 2026년 5월 7일 · 2 분 읽기

EU AI Office: AI법 간소화 및 누드화 앱 금지에 관한 정치적 합의

유럽집행위원회, 유럽의회, EU이사회는 AI법 시행을 간소화하고 이른바 누드화 앱을 명시적으로 금지하는 디지털 옴니버스 패키지에 관한 정치적 합의를 달성했습니다. 고위험 AI 시스템은 2027년 12월 2일부터, 제품에 통합된 AI는 2028년 8월 2일부터 적용됩니다.

🤝 에이전트 (5)

🔴 🤝 에이전트 2026년 5월 7일 · 2 분 읽기

arXiv:2605.06651: Google DeepMind, AI Co-Mathematician 발표 — FrontierMath Tier 4에서 48% 달성

Google DeepMind 팀이 AI 에이전트가 수학자와 열린 문제를 협력하는 대화형 작업 공간인 AI Co-Mathematician에 관한 논문을 발표했다. 이 시스템은 FrontierMath Tier 4 벤치마크에서 48%를 달성해 모든 AI 시스템 중 신기록을 세웠다.

🟡 🤝 에이전트 2026년 5월 7일 · 2 분 읽기

Anthropic: Managed Agents, 멀티에이전트 세션·Outcomes·Webhooks·Vault 갱신 기능을 퍼블릭 베타로 추가

Editorial illustration: dijagram više Claude agenata povezanih u jedan session canvas s vault i webhook ikonama

Claude Managed Agents는 Anthropic의 관리형 자율 에이전트 플랫폼으로, 2026년 5월 6일 퍼블릭 베타에서 네 가지 새 기능이 추가되었습니다. 멀티에이전트 세션, 목표 정의를 위한 Outcomes 메커니즘, 세션과 Vault 라이프사이클 이벤트를 위한 Webhooks, mcp_oauth 자격증명의 백그라운드 갱신이 포함됩니다. 상태별 세션 필터링과 유형·생성 시각별 이벤트 필터링도 추가되었습니다.

🟡 🤝 에이전트 2026년 5월 7일 · 2 분 읽기

GitHub: 컴파일러 이론의 지배자 분석으로 에이전트 동작 검증, 정확도 100% vs 에이전트 자기 평가 82%

Editorial illustration: dijagram graf strukture s istaknutim dominator čvorovima koji predstavljaju esencijalne korake u agentskom izvršavanju

GitHub이 비결정론적 AI 에이전트를 위한 검증 프레임워크를 발표했습니다. 컴파일러 이론의 지배자 분석(Dominator Analysis)을 차용하여 Copilot Coding Agent의 2~10회 성공 실행에서 필수 단계와 선택적 단계를 학습하고, 에이전트 버그와 실제 제품 회귀를 구분하는 데 100% 정확도를 달성합니다.

🟡 🤝 에이전트 2026년 5월 7일 · 2 분 읽기

GitHub: VS Code용 Copilot이 터미널 접근권 및 자체 API 키 지원 획득

편집 일러스트: VS Code용 Copilot이 터미널 접근권 및 자체 API 키 지원 획득

GitHub Copilot for Visual Studio Code는 4월 업데이트 사이클(버전 1.116~1.119)에서 전체 코드베이스의 시맨틱 검색, 열린 터미널에 대한 에이전트 접근권, Anthropic·OpenAI 등 제공업체의 자체 API 키 연결 기능을 획득했습니다.

🟡 🤝 에이전트 2026년 5월 7일 · 2 분 읽기

vLLM: Mooncake 분산 KV 캐시 스토어 통합으로 멀티턴 에이전트 처리량 3.8배, P50 TTFT 46배 개선

Editorial illustration: mreža GPU čvorova povezanih RDMA linkovima sa centralnim distributed KV cache poolom

vLLM이 Mooncake 분산 KV 캐시 스토어를 통합하여 에이전트 턴 간 접두사 재계산을 제거합니다. 12대의 GB200 GPU에서 현실적인 Codex 트레이스로 테스트한 결과, 처리량 3.8배 증가, P50 TTFT(첫 번째 토큰까지의 시간) 46배 감소, 엔드투엔드 레이턴시 8.6배 감소, 캐시 적중률이 1.7%에서 92.2%로 급상승했습니다.

🔧 하드웨어 (1)

🔴 🔧 하드웨어 2026년 5월 7일 · 2 분 읽기

NVIDIA: Spectrum-X 다중 경로 신뢰 연결이 기가급 AI 네트워크를 위한 OCP 개방 표준으로 채택

Editorial illustration: paralelne svjetlovodne staze između AI rack-ova s natpisom MRC, Spectrum-X i OCP open standard

NVIDIA Spectrum-X 다중 경로 신뢰 연결(MRC)은 단일 연결의 트래픽을 여러 네트워크 경로에 분산하는 RDMA 전송 프로토콜로, 오픈 컴퓨트 프로젝트(OCP)를 통해 개방 규격으로 공개되었습니다. MRC는 OpenAI, Microsoft Fairwater 데이터센터, Oracle Abilene 데이터센터에서 이미 운영 중이며 AMD, Broadcom, Intel, Microsoft와 공동 개발되었습니다.

🏥 실무 (4)

🟡 🏥 실무 2026년 5월 7일 · 2 분 읽기

Anthropic: Claude Code v2.1.132, 25개 이상의 수정 및 새로운 훅 환경 변수 제공

편집 일러스트: Claude Code v2.1.132, 25개 이상의 수정 및 새로운 훅 환경 변수 제공

Anthropic이 Claude Code v2.1.132를 출시했습니다. 25개 이상의 수정 사항과 두 가지 새로운 환경 변수인 훅 통합용 CLAUDE_CODE_SESSION_ID 및 네이티브 스크롤백용 CLAUDE_CODE_DISABLE_ALTERNATE_SCREEN이 포함됩니다. MCP 서버로 인한 10GB 이상의 RSS 메모리 증가 심각한 버그도 수정되었습니다.

🟡 🏥 실무 2026년 5월 7일 · 1 분 읽기

Anthropic: Claude Code v2.1.133, worktree.baseRef와 레이스 컨디션 수정 제공

Editorial illustration: Claude Code v2.1.133, worktree.baseRef와 레이스 컨디션 수정 제공

Anthropic이 worktree.baseRef, sandbox.bwrapPath/socatPath, 훅의 환경 변수 CLAUDE_EFFORT를 탑재한 Claude Code v2.1.133을 출시했다. 병렬 세션의 레이스 컨디션과 Windows 드라이브 루트 경로 문제를 수정했다. 이번 주 v2.1.131, v2.1.132에 이은 세 번째 릴리스.

🟡 🏥 실무 2026년 5월 7일 · 2 분 읽기

GitHub: 에이전트 워크플로 최적화로 19%~62% 토큰 절감 달성

Editorial illustration: 에이전트 워크플로 최적화로 19%~62% 토큰 절감 달성

GitHub이 프로덕션 에이전트 워크플로를 계측하고 토큰 낭비의 세 가지 주요 원인을 파악했다. 불필요한 MCP 도구, 결정론적 데이터 조회, 잘못 구성된 Bash 규칙이다. 최적화를 통해 워크플로별 19%~62%의 토큰 절감을 달성했다.

🟢 🏥 실무 2026년 5월 7일 · 2 분 읽기

arXiv:2605.04012: SymptomAI가 Fitbit 앱에서 약 13,917명 환자 대상으로 감별 진단에서 독립 임상의를 능가

Editorial illustration: korisnik razgovara sa SymptomAI agentom u Fitbit aplikaciji dok pozadinski panel prikazuje rangiranu listu dijagnoza

SymptomAI는 Fitbit 앱에 통합된 대화형 AI 에이전트로 약 13,917명의 참가자에서 테스트되었습니다. 임상 평가 하위 집합에서 동일한 대화를 평가한 독립 임상의 대비 오즈비(OR) 2.47을 달성했습니다. 본 연구는 프리프린트입니다.

💬 커뮤니티 (1)

🔴 💬 커뮤니티 2026년 5월 7일 · 2 분 읽기

Anthropic: SpaceX를 컴퓨트 파트너로 영입, 300 MW 용량 확보 및 Claude Code 속도 제한 두 배 확대

Anthropic이 SpaceX와 컴퓨트 파트너십을 체결하여 Colossus 1 데이터센터에서 300 MW 이상의 신규 용량과 22만 대 이상의 NVIDIA GPU를 한 달 내에 확보합니다. 동시에 Claude Code Pro, Max, Team, Enterprise 사용자의 5시간 속도 제한을 두 배로 늘리고, Opus 모델의 API 속도 제한도 대폭 상향합니다.

🛡️ 보안 (3)

🟡 🛡️ 보안 2026년 5월 7일 · 2 분 읽기

arXiv:2605.04019: 자동화 레드팀 에이전트가 Meta Llama Scout 대상 85% 성공률 달성, 공격 45종·변환 450종 이상 사용

Editorial illustration: automatizirani agent simultano pokreće desetke napadačkih vektora protiv jezičnog modela na ekranu kontrolne ploče

새 논문이 Dreadnode SDK 기반으로 구축된 에이전트형 레드팀 시스템을 제시합니다. 45종 이상의 공격, 450종 이상의 변환, 130종 이상의 스코어러로 Meta Llama Scout 대상 85%의 성공률을 달성하며, 수동 코딩 없이 보안 테스트를 몇 주에서 몇 시간으로 단축합니다.

🟡 🛡️ 보안 2026년 5월 7일 · 2 분 읽기

arXiv:2605.04785: AgentTrust가 AI 에이전트의 도구 호출을 95~97% 정확도로 차단

편집 일러스트: AgentTrust가 AI 에이전트의 도구 호출을 95~97% 정확도로 차단

AgentTrust는 AI 에이전트의 도구 호출(파일 작업, SQL 쿼리, 셸 명령)을 실행 전에 차단하고 네 가지 판정 중 하나를 반환하는 오픈소스 런타임 시스템입니다. 930개의 테스트 시나리오에서 95~97% 정확도를 달성했으며, 셸 난독화 공격에서는 약 93%의 정확도를 보였습니다.

🟡 🛡️ 보안 2026년 5월 7일 · 2 분 읽기

arXiv:2605.06390: 자동화된 정렬 연구는 보이는 것보다 어렵다

Geoffrey Irving(DeepMind/Anthropic)을 포함한 4명의 연구자가 쓴 새 논문은 AI 에이전트가 정렬 연구를 신뢰성 있게 자동화할 수 없다고 주장한다. 명확한 평가 기준 없이는 최적화 압력이 설득력 있지만 치명적으로 잘못된 안전 평가를 생성하며, 인간 검토자가 이를 감지하기 어렵다.

← 전날 다음 날 →