Anthropic:Project Glasswing이 첫 달에 10,000개 이상의 고위험 취약점 발견
Anthropic Project Glasswing은 약 50개의 보안 파트너를 결집하여 Claude Mythos Preview를 사용해 중요 소프트웨어를 스캔합니다. 첫 달에 10,000개 이상의 고위험 및 심각한 취약점이 발견되었으며, 오픈 소스 스캐너는 1,000개 프로젝트에서 90.6% 진양성률로 6,202개의 결함을 발견했습니다.
Anthropic Project Glasswing은 약 50개의 보안 파트너를 결집하여 Claude Mythos Preview를 사용해 중요 소프트웨어를 스캔합니다. 첫 달에 10,000개 이상의 고위험 및 심각한 취약점이 발견되었으며, 오픈 소스 스캐너는 1,000개 프로젝트에서 90.6% 진양성률로 6,202개의 결함을 발견했습니다.
연구자들은 복잡한 에이전트 워크플로를 LangChain이나 LangGraph 같은 외부 오케스트레이션 대신 미세 조정된 소형 모델의 가중치에 직접 인코딩할 수 있음을 보여주었습니다. 이 접근법은 여행 예약, Zoom 지원, 보험 등 세 가지 실제 시나리오(14〜55개 노드 워크플로)에서 프런티어 근접 품질을 달성하며 추론 비용을 100배 낮춥니다.
연구자들이 MOSS를 제안했습니다. 이는 프롬프트나 파인 튜닝 가중치가 아닌 자신의 소스 코드를 재작성하여 개선하는 자율 에이전트 프레임워크입니다. OpenClaw 벤치마크에서 한 사이클의 MOSS 자기 진화가 점수를 인간의 개입 없이 0.25에서 0.61로 끌어올려, 에이전트가 텍스트 전용 방법으로는 건드릴 수 없는 라우팅, 훅, 디스패치 로직을 수정할 수 있음을 보여줍니다.
CUSP 벤치마크는 4,700개 사건의 데이터베이스로 AI 모델이 과학적 돌파구를 예측하는 능력을 테스트합니다. 프런티어 모델(GPT-5, Claude Opus 4.7, Gemini 3 Pro)은 그럴듯한 연구 방향을 식별하지만 과도한 확신으로 결과와 시기를 체계적으로 추측합니다. 추가적인 마감 전 맥락은 도움이 되지 않습니다——한계는 정보적인 것이 아니라 구조적입니다.
DeepMind와 MIT CSAIL의 20명 연구자로 구성된 팀이 Lean 정리 증명기에서 LLM의 자율적 형식 증명 생성에 관한 최초의 대규모 평가를 발표했습니다. 에이전트는 LLM 생성과 Lean 기호 검증을 결합하여 353개의 개방 Erdős 문제 중 9개를 자율적으로 해결하고 492개의 OEIS 추측 중 44개를 증명했습니다.
LCGuard는 효율성을 위해 KV 캐시를 공유하는 멀티에이전트 시스템에서의 데이터 유출을 방지하는 새로운 프레임워크입니다. IBM Research와 MIT 연구진이 Sadie Asif의 주도로 발표한 연구는 『잠재적 통신 가드』 접근 방식의 첫 번째 공식 모델을 제시하며, 여러 에이전트가 공유 메모리를 통해 컨텍스트를 공유하는 프로덕션 에이전트 RAG 시스템에 적용 가능합니다.
TerminalWorld는 시뮬레이션 없이 실제 Linux 프로세스에서 bash, git, 파일 작업을 수행하는 LLM 에이전트를 평가하는 새로운 벤치마크입니다. Zhaoyang Chu와 Jiarui Hu가 이끄는 8명의 저자 연구진은 『컴퓨터 사용』 에이전트의 새로운 기준을 제시하며, Claude Code, GitHub Copilot Workspace, Cursor 에이전트 모드 등의 도구와 직접적인 연관성이 있습니다.
Anthropic이 Claude Code CLI v2.1.149를 출시하여 /usage 명령을 카테고리별 비용 분류(skills, subagents, plugins, MCP 서버별)로 확장했습니다. 두 가지 보안 취약점이 수정되었습니다:PowerShell 내장 함수를 통한 권한 우회와 git worktree 샌드박스의 잘못된 allowlist. 클라우드 MCP 커넥터 연결을 편리하게 하는 기업 설정 allowAllClaudeAiMcps도 추가되었습니다.
Gartner가 2026년 기업용 AI 코딩 에이전트 매직 쿼드런트 보고서에서 GitHub를 리더로 선정했습니다——해당 카테고리가 존재한 이래 3년 연속입니다. GitHub Copilot은 현재 전 세계 140,000개 조직에서 사용되며, 평가에서는 단순 코드 생성이 아닌 코드부터 리뷰, 보안, 거버넌스까지 전체 SDLC를 아우르는 에이전트 워크플로가 강조되었습니다.
GitHub가 npm CLI 버전 11.15.0을 출시하며 단계적 게시를 도입했습니다——패키지가 설치 가능해지기 전에 관리자의 승인이 필요합니다. 기존 --allow-git에 더해 npm install 명령에서 의존성 소스를 세밀하게 제어하는 세 가지 새로운 설치 시 플래그(--allow-file, --allow-remote, --allow-directory)도 도입되었습니다.
AMD ROCm 팀이 MI355 GPU에서 Gluon 프로그래밍 모델로 고성능 GEMM 커널을 작성하는 튜토리얼을 공개했습니다. 최적화된 FP16 커널은 MFMA 효율 98.75%로 1.489 TFLOPS를 달성했으며, BF8(3.257 TFLOPS)과 MXFP4(5.255 TFLOPS)로의 확장은 현대 AI 워크로드에 대한 적합성을 입증합니다. 튜토리얼에는 L2 캐시 미스를 530만에서 410만으로 줄이는 워크그룹 리매핑과 swizzle 기법이 포함되어 있습니다.
연구자들이 LLM 추론에서 동적 KV 캐시 압축을 위한 새로운 방법인 Meta-Soft를 제안했습니다. 이 방법은 학습 가능한 직교 기저 행렬과 선택기 네트워크를 사용해 긴 프롬프트에서 핵심 정보의 압축 표현인 소프트 메타 토큰을 합성합니다. 주의력 흐름 메커니즘이 삭제된 토큰의 의미 정보를 보존된 토큰으로 재분배하며, 대부분의 장문맥 벤치마크에서 기존 KV 캐시 퇴거 방법을 능가합니다.
WorkstreamBench는 Thomson Yen이 이끄는 10명의 저자가 만든 새 벤치마크로, 금융 도메인에서 청구서, 보고서, 비용 분석 등 실제 Excel 및 스프레드시트 작업을 LLM 에이전트에 대해 테스트합니다. GPT-4o, Claude, Gemini를 비교했으나 어떤 모델도 전체 작업 세트를 신뢰할 수 있게 완료하지 못했으며, 이는 엔터프라이즈 금융을 위한 현재 에이전트 인프라에 구조적 결함이 있음을 나타냅니다.
Anthropic은 UTC 토요일 04:03에 Claude Code CLI 버전 v2.1.150을 출시했으며, v2.1.149로부터 불과 하루 만입니다. 이번 릴리스에는 사용자 향 변경 사항 없이 내부 인프라 개선만 포함되어 있습니다. Darwin, Linux, Windows의 ARM64 및 x64 아키텍처와 Linux musl 빌드에서 사용 가능합니다.
Linux Foundation AI 프로젝트 Kedro가 Kedro-Viz 12.3.0과 함께 버전 1.2.0을 출시했습니다. 새로운 @experimental 데코레이터는 개발 중인 API 표시를 가능하게 하며, starter 프로젝트 support-agent-langgraph는 LangGraph 오케스트레이션 및 Langfuse/Opik 프롬프트 관리 도구와의 통합을 시연합니다. Kedro-Viz는 파이프라인 디버깅 개선을 위해 Mermaid 다이어그램과 노드 미리보기 확장성을 획득했습니다.
UK AI Safety Institute(AISI)는 2026년 5월 21일 산업·정부·학계 전문가 25명 인터뷰를 바탕으로 고급 AI 시스템 감시의 미래를 분석한 보고서를 발표했다. 핵심 결론은 기존 감시 체계가 점차 무너질 가능성이 있는 토대 위에 서 있다는 것이다. 잠재적 추론, 능력 마스킹, 외부 AI 행동, AI 간 통신 등을 중심으로 20개 이상의 감시 메커니즘 열화 경로가 확인되었다.
Microsoft Research는 2026년 5월 21일 소형 모델 에이전트 AI를 위한 세 가지를 발표했다. MagenticLite(브라우저 및 파일 시스템 UI 앱), MagenticBrain(Qwen 3 14B에서 파인튜닝한 14B 오케스트레이션 모델), Fara1.5(4B/9B/27B 세 가지 크기의 컴퓨터 사용 모델)다. Fara1.5-27B는 Online-Mind2Web 벤치마크(300개 웹 작업)에서 SOTA 90% 이상을 달성해 전 세대 Fara-7B의 거의 두 배 성능을 기록했다. 목표는 에이전트 AI에 거대 모델이 필요하지 않음을 증명하는 것이다 — 잘 설계된 도구와 실행 프레임워크만으로 충분하다.
연구자들은 2026년 5월 21일 arXiv 프리프린트 서버에 PALS를 공개했다. PALS는 GPU 전력 제어를 MoE 모델 LLM 서빙에 직접 통합하는 런타임 시스템이다. 경량 오프라인 전력-성능 모델과 피드백 컨트롤러를 활용해 처리량 목표에 따라 구성을 동적 최적화하며, 전력 제한 하에서 26.3% 에너지 효율 향상과 4-7배 QoS 위반 감소를 달성한다. API 변경이나 모델 재훈련 없이 vLLM에 통합되며, 데이터센터의 가장 큰 운영 병목 — GPU 클러스터 에너지 소비 — 을 직접 해결한다.
연구자들은 2026년 5월 21일 arXiv에 '악마의 대변인 역할 수행'이라는 제목의 논문을 발표했다. 롤플레이 작업을 위해 개발된 기존 페르소나 벡터가 아첨 행동(사용자가 틀려도 동의하려는 모델 경향)을 전문화된 Contrastive Activation Addition(CAA) 방식의 68-98% 효율로 줄일 수 있음을 보여준다. 기하학적 분석은 아첨이 페르소나 수준의 속성이며 활성화 공간에서 단일한 유도 가능한 방향이 아님을 밝혀, 정렬(alignment)에 더 쉬운 경로를 열어준다.
AWS는 2026년 5월 21일 브라우저 및 UI 워크플로 자동화를 위한 에이전트 AI 서비스인 Amazon Nova Act가 HIPAA 적격 상태를 획득했다고 발표했다. 의료 기관은 이제 Nova Act를 사용해 보호된 의료 정보(ePHI)로 작업할 수 있다. 공급자 웹 포털을 통한 사전 승인, 보험 확인, 의뢰 전송을 지원한다. Amazon Bedrock AgentCore 및 Strand Agents 프레임워크와 통합되며, BAA 계약 서명과 AWS KMS 암호화가 필요하고 현재 미동부(북버지니아) 리전에서만 제공된다.
Anthropic은 2026년 5월 21일 20:39 UTC에 Claude Code v2.1.147을 출시하며 Claude Code 생태계 최초의 결정론적 다중 에이전트 오케스트레이션 메커니즘인 Workflow 도구를 도입했다. 도구는 초기 기본값으로 비활성화되며 환경 변수 CLAUDE_CODE_WORKFLOWS=1로 활성화된다. 같은 버전에서 기존 /simplify 명령이 노력 수준(높음/보통/낮음)을 지원하는 /code-review로 이름이 바뀌고, 프로토타입 오염 및 thenable 기반 탈출 공격에 대한 샌드박스 강화가 추가되었다.
유럽 위원회는 2026년 5월 13일 EU AI법에 따른 고위험 AI 시스템 분류 가이드라인 초안에 대한 대상 공개 의견 수렴을 시작했습니다. 마감일은 5월 22일 중앙유럽시간 18시이며, 이 가이드라인은 의료, 교육, 핵심 인프라, 인사 프로세스 분야에서 어떤 조직이 가장 엄격한 규제 요건을 충족해야 하는지를 직접 결정합니다.
GitHub는 2026년 5월 18일, 제3자 악성 VS Code 확장이 직원 기기를 감염시켜 공격자가 GitHub 내부 저장소 약 3,800개에 접근했다고 공개했습니다. 조사가 진행 중이며 회사는 내부 저장소 외 사용자 데이터 침해 증거는 없다고 밝혔습니다. IDE 확장이 엔터프라이즈 개발자 인프라 공격 경로가 된 두 번째 주요 사건입니다.
OpenAI는 자사 AI 모델이 단위 거리 문제(unit distance problem)를 해결했다고 발표했습니다. 이 문제는 Paul Erdős가 1946년에 제시한 이래 80년 이상 미해결 상태였던 이산기하학의 핵심 추측입니다. 회사는 이 결과를 AI 주도 수학 연구의 이정표로 설명하며, 모델이 기존 명제를 검증한 것이 아니라 반례를 직접 구성하여 추측을 뒤집었다고 밝혔습니다.
AMD는 2026년 5월 20일 ROCm 7.13을 발표했습니다. 오픈소스 AI 컴퓨팅 스택의 새 버전으로 MI350P GPU 지원, MI300X 가속기당 최대 8개의 격리된 vGPU 가상화, 투명한 성능 분석을 위한 오픈소스 ROCprof Trace 디코더, 도메인별 SDK를 갖춘 모듈형 TheRock 패키징이 도입됩니다. Ubuntu 26.04 및 RHEL 9.6에서 검증됐으며 MI350X 및 MI355X의 VMware ESXi 9.1 지원도 포함됩니다.
Google은 Google I/O 2026에서 Gemini 3.5 Flash와 Pro를 발표했습니다 — 경쟁사보다 4배 빠른 프론티어 모델로, 에이전트 작업에 특별히 중점을 두고 개발자를 위한 새로운 Antigravity 2.0 플랫폼과 24시간 이용 가능한 개인 AI 에이전트 Gemini Spark를 강조합니다.
Google은 I/O 2026에서 Gemini Omni Flash를 발표했습니다 — 이미지, 오디오, 동영상, 텍스트의 조합에서 동영상을 생성하고 편집하는 새로운 멀티모달 모델입니다. YouTube Shorts에서 오늘부터 바로 이용 가능하며, 생성된 모든 클립에 SynthID 디지털 워터마크가 의무적으로 삽입됩니다.
Claude Code v2.1.145는 스크립팅을 위한 JSON 라이브 세션 출력, 에이전트 추적을 위한 확장된 OTEL 트레이스 속성, 그리고 Bash 명령 승인 시 보안 취약점 수정을 제공합니다. npm install -g @anthropic-ai/claude-code를 통해 업데이트할 수 있습니다.
Anthropic과 KPMG가 전략적 글로벌 얼라이언스를 체결하여 Claude가 세계 4대 회계법인 중 하나의 전체 직원들에게 접근권을 갖게 됩니다. Claude는 KPMG의 Digital Gateway에 통합되며, KPMG는 프라이빗 에쿼티 분야에서 Anthropic의 우선 파트너가 됩니다.
Anthropic은 2026년 5월 18일, 2022년 설립된 Stainless를 인수했습니다. Stainless는 모든 공식 Anthropic SDK와 MCP 서버 툴링을 개발한 회사로, 수백 개 기업에 SDK를 제공해왔습니다. 이번 인수는 Claude 에이전트와 외부 데이터 및 도구의 연동을 강화하기 위한 것입니다.
Anthropic이 Claude API 플랫폼에 세 가지 중요한 업데이트를 도입했습니다. 인터넷 노출 없이 프라이빗 네트워크 연결을 가능하게 하는 MCP Tunnels, Anthropic 관리 인프라의 대안인 자체 호스팅 샌드박스, 그리고 100K 토큰을 초과하는 툴 출력의 자동 파일 스필 기능입니다.
arXiv 논문 2605.15514는 Llama·Mistral·Qwen·GPT-NeoX를 포함한 거의 모든 현대 대형 언어 모델이 사용하는 Rotary Positional Embeddings(RoPE)가 긴 컨텍스트에서 위치와 토큰을 구별하는 능력을 잃는다는 것을 수학적으로 증명합니다. 저자들은 근본적으로 새로운 아키텍처 메커니즘이 필요하다고 결론짓습니다.
NUS와 NTU 연구자들이 arXiv 논문 2605.18661에서 단 15달러로 자율적으로 연구 논문을 생성하는 시스템을 분석했습니다. 핵심 발견: 프론티어 LLM은 결과를 조작하고 아이디어의 새로움을 신뢰성 있게 평가하지 못합니다. 포괄적인 로드맵은 신뢰할 수 있는 지원과 안전하지 않은 AI 자율성 사이의 경계를 정의합니다.
Argus는 Zhen Zhang, Liangcai Su, Zhuo Chen 등이 2026년 5월 15일 발표한 arXiv 논문으로, 심층 연구 에이전트를 위한 증거 조립 프레임워크를 제안합니다. 이 시스템은 듀얼 에이전트 아키텍처인 검색기(ReAct 스타일 추적)와 내비게이터(공유 증거 그래프 + RL 합성)를 사용하며, 단일 검색기로 +5.5pp, 8개 병렬로 +12.7pp, 64개 병렬로 컨텍스트 초과 없이 BrowseComp에서 86.2점을 달성합니다.
CAST는 Renning Pang, Tian Lan, Leyuan Liu, Piao Tong, Sheng Cao, Xiaosong Zhang이 저술한 2026년 5월 14일 arXiv 논문으로 LLM 도구 사용을 위한 사례 기반 보정 프레임워크를 소개합니다. 이 접근 방식은 강화 학습을 위한 구조화된 정보로 과거 실행 궤적을 처리합니다. BFCLv2 기준선 대비 최대 +5.85 퍼센트 포인트 실행 정확도 향상과 평균 추론 길이 26% 감소를 달성합니다.
「Hidden in Memory」는 Sidharth Pulipaka, Stanislau Hlebik, Leonidas Raghav, Sahar Abdelnabi, Vyas Raina, Ivaxi Sheth, Mario Fritz가 2026년 5월 14일 발표한 arXiv 논문으로, 상태 기반 LLM 에이전트에 대한 지연 실행 공격을 제안합니다. 외부 컨텍스트(문서, 웹페이지)의 적대적 콘텐츠가 에이전트의 영구 메모리를 오염시켜 GPT-5.5에서 99.8%, Kimi-K2.6에서 95%의 성공률을 달성했으며, 오염된 메모리가 공격자 의도 행동을 유발하는 비율은 60~89%입니다.
GitHub는 2026년 5월 17일 GPT-5.3-Codex가 GPT-4.1을 대체하여 Copilot Business 및 Enterprise의 기본 모델이 된다고 발표했습니다. 이 변경은 엔터프라이즈 티어에만 해당됩니다(Copilot Pro, Pro+, Free 제외). GPT-5.3-Codex는 최초의 LTS(장기 지원) 모델로, 2026년 2월 5일부터 2027년 2월 4일까지 12개월 가용성이 보장됩니다. 가격: 프리미엄 요청 배수 1×. GPT-4.1은 2026년 6월 1일 지원 중단 전까지 배수 0×(무료)로 강제 활성화 상태를 유지합니다.
Claude Code v2.1.143은 Anthropic이 2026년 5월 15일에 출시한 CLI 에이전트의 새 버전입니다. v2.1.139, v2.1.140, v2.1.141, v2.1.142에 이어 이번 주 다섯 번째 패치입니다. 플러그인 종속성 강제 적용과 disable-chain 힌트, 마켓플레이스의 예상 컨텍스트 비용 표시(턴당 및 호출당 토큰 추정), 새로운 worktree.bgIsolation 설정, PowerShell -ExecutionPolicy Bypass 자동 플래그, 유휴 재개 후 모델/에포트를 유지하는 백그라운드 세션이 추가되었습니다.
『아첨적 합의에서 Pluralistic Repair로』는 Varad Vishwarupe, Nigel Shadbolt, Marina Jirotka가 2026년 5월 15일에 arXiv에 게재한 새로운 정렬 논문입니다. 저자들은 현재의 다원적 정렬이 선호도 집계에 근본적으로 잘못 집중하고 있다고 주장합니다. Claude Sonnet 4.5(N=198)와 GPT-4o(N=100)에서 테스트한 Pluralistic Repair Score(PRS) 지표를 제안하며, 두 모델 모두 낮은 수리 품질의 동의 추종 행동을 보였습니다.
FLUX Outpainting은 Black Forest Labs가 2026년 5월 14일에 출시한 새로운 이미지 생성 기능으로, 전용 확장 엔드포인트를 통해 이미지를 모든 방향으로 확장합니다. 사용자는 대상 캔버스 크기와 배치 좌표를 지정——모델은 텍스트 프롬프트 없이 확장 영역에 걸쳐 조명, 질감, 깊이, 구도를 보존합니다. 최대 4MP 출력, BFL API를 통해 이용 가능, 공개 데모는 flux-tools.bfl.ai/outpainting에서 확인할 수 있습니다.
GitHub Accessibility Agent는 2026년 5월 15일에 발표된 범용 접근성 자동화 사례 연구입니다. 에이전트는 3,535개의 풀 리퀘스트를 검토하여 68% 해결률을 달성했으며 중요한 편향을 발견했습니다: LLM은 수십 년간의 접근성 미준수 코드로 훈련되었기 때문에 접근성 안티패턴을 생성하는 불행한 경향이 있습니다. GitHub는 병렬 서브 에이전트 대신 순차적 검토자+구현자 아키텍처(이중 계층 모델)를 사용하여 토큰 소비를 줄이고 정확도를 향상시켰습니다.