2026년 5월 5일 화요일

15 개 뉴스 — 🔴 3 중요 , 🟡 10 주목 , 🟢 2 흥미

🤖 모델 (4)

🟡 🤖 모델 2026년 5월 5일 · 2 분 읽기

ArXiv AgentFloor：소형 오픈웨이트 모델(0.27B-32B)이 단기 에이전트 작업에 충분, GPT-5는 장기 계획에서만 우위

편집 일러스트: 다양한 크기의 모델이 다른 수준에 배치된 능력 사다리, 도구 사용 평가의 상징

Ranit Karmakar와 Jayita Chatterjee가 AgentFloor를 발표했습니다——6개 능력 수준으로 구성된 30개 작업의 결정론적 네트워크로, 0.27B에서 32B 범위의 16개 오픈웨이트 모델과 GPT-5를 평가했습니다. 결론: 소형 모델은 단기적이고 구조화된 에이전트 작업에 이미 충분하며, 프런티어 모델은 제약이 있는 장기 계획에서만 명확한 우위를 유지합니다.

🟡 🤖 모델 2026년 5월 5일 · 2 분 읽기

ArXiv Token Arena：에너지와 인지를 통합한 지속적 벤치마크, 엔드포인트 간 정답당 에너지 6.2배 차이 발견

편집 일러스트: AI 추론 엔드포인트의 에너지와 인지를 측정하는 저울, 다차원 벤치마크의 상징

Yuxuan Gao, Megan Wang, Yi Ling Yu가 2026년 5월 1일 Token Arena를 발표했습니다——엔드포인트 수준에서（78개 엔드포인트, 12개 모델 패밀리）AI 추론을 평가하는 지속적 벤치마크 플랫폼입니다. 같은 모델이 서로 다른 엔드포인트에서 수학/코드 벤치마크에서 최대 12.5점, 꼬리 지연에서 수십 배, 정답당 에너지에서 최대 6.2배 차이가 날 수 있음을 밝혔습니다. 플랫폼은 CC BY 4.0 라이선스로 결과를 공개합니다.

🟡 🤖 모델 2026년 5월 5일 · 2 분 읽기

NIST CAISI：DeepSeek V4 Pro, 지금까지 평가된 최강 중국 AI 모델이지만 미국 프런티어에 8개월 뒤처져

편집 일러스트: 8개월 격차를 표시하는 타임라인의 AI 모델, 독립 평가의 상징

미국 NIST 산하 인공지능 표준 및 혁신 센터(CAISI)가 2026년 5월 1일 DeepSeek V4 Pro 모델에 대한 독립 평가를 발표했습니다. 결론: 지금까지 평가된 PRC AI 모델 중 가장 뛰어나지만, 종합 능력에서 미국 프런티어보다 약 8개월 뒤처집니다. 평가는 사이버 보안, 소프트웨어 엔지니어링, 자연과학, 추상적 추론, 수학의 5개 영역에서 미공개 벤치마크를 사용하여 수행되었습니다.

🟢 🤖 모델 2026년 5월 5일 · 3 분 읽기

arXiv:2605.02572: 긴 호라이즌이 LLM 학습을 불안정하게 만든다 — ICML 2026 논문, '호라이즌 일반화'를 해결책으로 제시

ICML 2026 채택 논문이 탐색 및 신용 할당 문제로 인해 과제 호라이즌 길이 증가가 심각한 LLM 학습 불안정을 유발한다는 것을 실증적으로 증명합니다. 제안된 해결책: 학습 시 호라이즌을 단축하고 추론 시 명시적인 '호라이즌 일반화' 메커니즘을 사용하는 방식입니다. 이 논문은 프론티어 모델 학습에서 과제 호라이즌 스케일링에 관한 최초의 실증적 규칙을 수립합니다.

⚖️ 규제 (1)

🔴 ⚖️ 규제 2026년 5월 5일 · 2 분 읽기

NIST CAISI, 프런티어 AI 국가 안보 테스트를 Google DeepMind·Microsoft·xAI로 확대

컨셉 일러스트: 회로 기판과 칩에 둘러싸인 정의의 저울과 지구본, AI 국가 안보를 상징

NIST 산하 AI 표준혁신센터(CAISI)는 2026년 5월 5일 Google DeepMind, Microsoft, xAI와 프런티어 모델의 배포 전·후 테스트에 관한 확장 협약을 체결했습니다. CAISI는 현재까지 40건 이상의 평가를 실시했으며, 미공개 최첨단 모델에 대한 테스트를 포함해 안전장치를 제거한 기밀 환경에서 정례적으로 수행됩니다.

🤝 에이전트 (3)

🟡 🤝 에이전트 2026년 5월 5일 · 3 분 읽기

ArXiv GUI-SD：GUI 그라운딩을 위한 최초의 온폴리시 자기 증류 프레임워크, 6개 벤치마크에서 GRPO 강화학습 능가

편집 일러스트: GUI 요소의 특권 시각 컨텍스트를 가진 교사-학생 역학, 자기 증류의 상징

Yan Zhang, Daiqing Wu, Huawen Shen이 GUI-SD를 발표했습니다——AI 에이전트가 자연어 지시를 UI 요소의 시각 좌표에 매핑하는 능력인 GUI 그라운딩에 특화된 최초의 온폴리시 자기 증류(OPSD) 프레임워크입니다. 특권 시각 컨텍스트(바운딩 박스와 가우시안 소프트 마스크)와 엔트로피 가이드 증류를 사용합니다. 6개의 대표적인 GUI 그라운딩 벤치마크에서 GUI-SD는 GRPO 기반 강화학습 방법을 지속적으로 능가합니다.

🟡 🤝 에이전트 2026년 5월 5일 · 2 분 읽기

AWS Bedrock AgentCore Optimization 프리뷰 출시：OpenTelemetry 트레이스로 생산에서 A/B 테스트까지 자동화 루프 구현

편집 일러스트: AI 에이전트를 둘러싼 생산·평가·A/B 테스트 클로즈드 루프, 최적화의 상징

AWS가 2026년 5월 4일 AgentCore Optimization을 프리뷰로 발표했습니다. 프로덕션 트레이스에서 시스템 프롬프트와 도구 설명에 대한 구체적인 개선 제안을 생성하고, 테스트 세트에 대한 배치 평가, 통계적 유의성을 갖춘 A/B 테스트를 수행하는 자동화 루프입니다. 시스템은 모든 모델 호출, 도구 호출, 추론 단계를 OpenTelemetry 호환 트레이스로 수집하여 수동 추측 수정을 프로덕션 데이터 기반의 구조화된 사이클로 대체합니다.

🟡 🤝 에이전트 2026년 5월 5일 · 2 분 읽기

AWS SageMaker AI, 9개 내장 스킬 에이전트 파인튜닝 워크플로우 도입 — Kiro 및 Claude Code 통합

편집 일러스트: 9개의 모듈과 칩 네트워크로 둘러싸인 미래지향적 로봇 팔

Amazon은 2026년 5월 4일 SageMaker AI에 에이전트 기반 워크플로우를 출시했습니다. 유스케이스 명세부터 배포까지 전체 모델 커스터마이징 라이프사이클을 아우르는 9개의 내장 스킬 에이전트를 제공하며, SFT·DPO·RLVR 훈련 방법을 지원합니다. JupyterLab 환경에서 Kiro(기본)와 Claude Code와 통합되며, 수개월의 전문 ML 작업을 수일로 단축한다고 주장합니다.

🔧 하드웨어 (1)

🟡 🔧 하드웨어 2026년 5월 5일 · 2 분 읽기

ArXiv SAGA：AI 에이전트를 위한 워크플로우 원자화 GPU 스케줄링, 64-GPU 클러스터에서 작업 완료 1.64배 단축, HPDC 2026 채택

편집 일러스트: 원자 단위로 연결된 에이전트 워크플로우가 있는 GPU 클러스터, 스케줄링의 상징

Dongxin Guo, Jikun Wu, Siu Ming Yiu 팀은 2026년 5월 1일 SAGA를 발표했습니다. GPU 클러스터 상의 AI 에이전트를 위한 워크플로우 원자화 스케줄러로, 개별 LLM 호출 대신 전체 에이전트 워크플로우를 하나의 스케줄 가능한 단위로 처리합니다. 64-GPU 클러스터에서 작업 완료 시간의 기하 평균 1.64배 단축과 멀티테넌트 부하에서 SLO 달성률 99.2%를 실현합니다. 논문은 HPDC 2026（클리블랜드, 2026년 7월 13-16일）에 채택되었습니다.

🏥 실무 (2)

🟡 🏥 실무 2026년 5월 5일 · 2 분 읽기

arXiv:2605.02740: ReClaim — 2억 건 환자 기록으로 학습한 파운데이션 모델, 1,000개 이상 의료 과제에서 평균 AUC 75.6% 달성

편집 일러스트: 코드·청진기·의료 차트를 표시하는 모니터가 있는 개발자 작업 공간

새 arXiv 프리프린트가 ReClaim을 소개합니다. 2억 건의 환자 기록에서 추출한 438억 건의 의료 이벤트로 학습된 17억 파라미터 파운데이션 모델로, 1,000개 이상의 진단 과제에서 평균 AUC 75.6%를 달성해 LightGBM(66.3%)과 Delphi 전문 모델(69.4%)을 크게 능가합니다. 행정 의료 데이터로 학습된 파운데이션 모델의 새로운 범주를 개척합니다.

🟡 🏥 실무 2026년 5월 5일 · 3 분 읽기

Anthropic Claude Code v2.1.128: 30건 이상 수정, .zip 플러그인 지원, 서브에이전트 캐시 생성 비용 약 3배 절감

컨셉 일러스트: 개발자 워크스페이스, 모니터 옆에 .zip 아카이브와 플러그인 설치 진행 표시줄

Claude Code v2.1.128(2026년 5월 4일 출시)은 30건 이상의 개선을 제공합니다. /mcp 패널에 도구 수 표시 및 도구 0개 서버 플래그 기능, --plugin-dir에서 .zip 플러그인 아카이브 지원, 로컬 미푸시 커밋 손실 EnterWorktree 버그 수정, 서브에이전트 cache_creation 비용 약 3배 절감, 10MB 초과 stdin 파이프 시 크래시 수정이 포함됩니다.

💬 커뮤니티 (2)

🔴 💬 커뮤니티 2026년 5월 5일 · 2 분 읽기

Anthropic, Blackstone·Hellman & Friedman·Goldman Sachs와 중소기업 대상 엔터프라이즈 AI 서비스 회사 설립

편집 일러스트: 중앙 AI 허브에 연결된 비즈니스 기관 네트워크, 엔터프라이즈 AI 배포의 상징

Anthropic은 2026년 5월 4일 Blackstone, Hellman & Friedman, Goldman Sachs를 창업 투자자로 하는 새로운 엔터프라이즈 AI 서비스 회사 설립을 발표했습니다. Sequoia, Apollo Global Management, GIC, Leonard Green, General Atlantic이 추가 파트너로 합류합니다. 목표 시장은 Claude 솔루션 구축을 위한 내부 자원이 없는 상업 은행, 중형 제조 기업, 지역 의료 시스템입니다.

🟡 💬 커뮤니티 2026년 5월 5일 · 3 분 읽기

IBM Think 2026: Krishna, 4대 기둥 기반 AI 운영 모델 발표 — watsonx Orchestrate·IBM Bob·Sovereign Core 공개

편집 일러스트: AI 운영 모델을 나타내는 중앙 허브와 상호 연결된 톱니바퀴·네트워크 노드

보스턴에서 열린 Think 2026 컨퍼런스에서 IBM은 2026년 5월 5일 AI 운영 모델을 발표했습니다. 4대 기둥(에이전트·데이터·자동화·하이브리드) 프레임워크로, 차세대 watsonx Orchestrate를 에이전트 제어 플레인으로, IBM Bob을 개발 파트너로, Concert 플랫폼을 운영에 활용하며, Sovereign Core를 규정 준수용으로 일반 제공합니다. CEO Krishna는 기업 간 'AI 격차'가 확대되고 있다고 경고했습니다.

🛡️ 보안 (2)

🔴 🛡️ 보안 2026년 5월 5일 · 2 분 읽기

ArXiv：시각 이미지가 VLM 안전 필터를 40.9% 확률로 우회, ICML 2026 논문 공개

편집 일러스트: 균열을 통해 이미지가 흘러나오는 돌파된 시각 보안 쉘, VLM 필터 공격의 상징

연구자 Aharon Azulay, Jan Dubiński, Zhuoyun Li가 ICML 2026에서 시각 모달리티를 활용해 비전-언어 모델의 안전 정렬을 우회하는 4가지 공격 클래스를 발표했습니다. 시각 인코더는 Claude Haiku 4.5에서 40.9%의 성공률을 달성했으나 동등한 텍스트 공격은 10.7%만 필터를 돌파했으며, 이미지가 순수 언어 모델에는 존재하지 않는 공격 클래스를 열어준다는 사실이 확인되었습니다.

🟢 🛡️ 보안 2026년 5월 5일 · 2 분 읽기

CNCF：불변 다이제스트 고정, 최소 권한 토큰, 임시 러너——더 안전한 GitHub Actions 파이프라인을 위한 레시피 카드

편집 일러스트: 고정된 다이제스트 레이블이 있는 잠긴 CI/CD 파이프라인, 공급망 보안의 상징

Cloud Native Computing Foundation（CNCF）보안 기술 자문 그룹（TAG）이 2026년 5월 4일 공급망 공격으로부터 GitHub Actions CI/CD 파이프라인을 보호하기 위한 실용 가이드를 발표했습니다. Marina Moore, Evan Anderson, Sherine Khoury가 5가지 구체적인 실천법을 정리하고 zizmor, frizbee, pinact, ratchet, Dependabot 등의 도구를 제시했습니다.

← 전날 다음 날 →