2026년 5월 6일 수요일

16 개 뉴스 — 🔴 2 중요 , 🟡 11 주목 , 🟢 3 흥미

🤖 모델 (4)

🔴 🤖 모델 2026년 5월 6일 · 2 분 읽기

OpenAI: GPT-5.5 Instant, 환각 감소와 함께 ChatGPT의 새 기본 모델로 지정

편집 일러스트: 파란 배경의 ChatGPT 인터페이스에 GPT-5.5 Instant가 새 기본 모델로 표시됨

GPT-5.5 Instant는 OpenAI가 2026년 5월 5일 발표한 새로운 ChatGPT 기본 모델입니다. 더 스마트하고 정확한 답변, 환각 감소, 향상된 개인화를 제공하며, 동시에 시스템 카드도 공개되었습니다.

🟡 🤖 모델 2026년 5월 6일 · 2 분 읽기

arXiv:2605.03871: EvoLM — 외부 감독 없이 자가 개선하는 언어 모델

편집 일러스트: 외부 감독 없이 점수와 개선 사항을 교환하는 피드백 루프 내의 두 언어 모델

EvoLM은 외부 감독을 제거하는 포스트 트레이닝 방법입니다——Qwen3-8B 루브릭 생성기는 RewardBench-2에서 GPT-4.1을 25.7% 앞서고 SkyWork-RM을 16% 초과하며, 훈련된 정책은 OLMo3-Adapt 벤치마크에서 69.3%를 달성합니다.

🟡 🤖 모델 2026년 5월 6일 · 2 분 읽기

Google: Gemini API File Search, 이미지와 텍스트의 멀티모달 검색으로 확장

편집 일러스트: Gemini API가 임베딩 모델을 통해 이미지와 텍스트를 공통 의미론적 검색으로 결합합니다

Google이 Gemini API의 File Search를 멀티모달 검색으로 확장하여 gemini-embedding-2 모델을 통해 이미지와 텍스트 문서의 기본 임베딩 및 검색을 가능하게 했습니다. 두 개의 새로운 grounding 필드와 Batch API를 위한 이벤트 기반 webhook 지원이 추가되었습니다.

🟡 🤖 모델 2026년 5월 6일 · 2 분 읽기

Microsoft Research: DroidSpeak, 미세 조정된 LLM 변형 간 KV 캐시 공유로 4배 더 높은 처리량 달성

편집 일러스트: 데이터 센터에서 여러 미세 조정된 LLM 변형 간의 KV 캐시 공유 다이어그램

Microsoft Research가 NSDI 2026에서 DroidSpeak를 발표했습니다. 이는 아키텍처가 동일한 미세 조정된 LLM 변형 간에 KV 캐시를 공유하는 시스템으로, 수십 개의 도메인 모델을 가진 엔터프라이즈 시나리오에서 최대 4배 더 높은 처리량을 달성하며 품질 저하는 최소화됩니다.

📦 오픈소스 (1)

🔴 📦 오픈소스 2026년 5월 6일 · 2 분 읽기

Allen Institute: MolmoAct 2, GPT-5와 Gemini 2.5 Pro를 능가하는 최초의 오픈소스 로보틱스 파운데이션 모델

편집 일러스트: 실험실에서 Franka 암 양팔 로봇이 상자를 열고 있으며, 오픈소스 MolmoAct 2 파운데이션 모델을 상징합니다

MolmoAct 2는 Allen Institute for AI가 5월 5일에 공개한 오픈소스 로보틱스 파운데이션 모델입니다. 구현 추론 벤치마크에서 63.8/100을 달성해 GPT-5와 Gemini 2.5 Pro를 능가하고, 추론 속도를 37배 향상시켰으며, 양손 협조 능력을 내장한 최초의 기반 모델입니다.

⚖️ 규제 (2)

🟡 ⚖️ 규제 2026년 5월 6일 · 2 분 읽기

arXiv:2605.04039: 임상 LLM의 안전성과 정확도는 서로 다른 스케일링 법칙을 따릅니다

편집 일러스트: X선 이미지 위의 두 개의 분리된 스케일링 곡선——하나는 정확도용, 다른 하나는 안전성용

새로운 연구는 임상 LLM의 안전성이 정확도와 동일한 스케일링 법칙을 따르지 않음을 보여줍니다——RAG의 더 깨끗한 증거가 정확도를 73.5%에서 94.1%로 높이고, 고위험 오류를 12%에서 2.6%로 낮추는 효과가 모델 크기 증가보다 더 큽니다.

🟡 ⚖️ 규제 2026년 5월 6일 · 2 분 읽기

UK AISI: Microsoft와 3개 분야 프론티어 AI 안전 협력을 위한 MoU 체결

편집 일러스트: 프론티어 AI 안전에 초점을 맞춘 영국 정부 기관과 기술 회사 간의 악수

영국 AI 보안 연구소가 5월 5일 Microsoft와의 프론티어 AI 안전 파트너십을 발표했습니다. 협력은 세 가지 연구 분야를 포함합니다: 고위험 역량 평가, 보호 조치 테스트, 대화형 AI의 사회적 회복력 연구.

🤝 에이전트 (4)

🟡 🤝 에이전트 2026년 5월 6일 · 2 분 읽기

Anthropic: 금융 서비스용 에이전트 템플릿 10종 + Claude Opus 4.7, Vals AI Finance 벤치마크에서 64.37% 달성

편집 일러스트: 리서치와 운영 두 그룹으로 나뉜 금융 에이전트 아이콘이 있는 열 개의 추상 카드

Anthropic이 pitchbook 생성기, KYC 심사기, 월말 결산 도구 등 10종의 금융 서비스용 에이전트 템플릿을 공개했습니다. 템플릿은 Claude Cowork와 Claude Code의 플러그인으로 제공되며, Claude Opus 4.7은 Vals AI Finance 벤치마크에서 64.37%를 달성했습니다.

🟡 🤝 에이전트 2026년 5월 6일 · 2 분 읽기

arXiv:2605.03675: MEMTIER — 5계층 메모리 아키텍처로 장기 에이전트에 기억력 회복

편집 일러스트: 에피소드 JSONL에서 의미론적 데이터베이스까지 데이터 흐름으로 연결된 5개의 수평 메모리 계층

MEMTIER는 장기 자율 에이전트를 위한 5계층 메모리 아키텍처입니다——LongMemEval-S 벤치마크에서 Qwen2.5-7B를 사용하면 정확도가 0.050에서 0.382로 상승하고 72시간 운영 후에도 도구 실행 성공률이 더 이상 하락하지 않습니다.

🟡 🤝 에이전트 2026년 5월 6일 · 2 분 읽기

AWS: AgentCore Browser에 OS 수준 작업 추가——8개의 새로운 기본 기능

편집 일러스트: Amazon Bedrock AgentCore 환경에서 에이전트가 브라우저 경계 밖의 시스템 대화 상자를 클릭하고 있습니다

AWS가 5월 5일 Amazon Bedrock AgentCore Browser의 OS 수준 작업을 발표했습니다. 에이전트가 DOM 범위 밖에서 운영 체제의 기본 인터페이스와 상호 작용할 수 있게 합니다. 8개의 작업과 작업-스크린샷-반응 루프를 도입하며, 추가 설정 없이 사용 가능합니다.

🟢 🤝 에이전트 2026년 5월 6일 · 2 분 읽기

arXiv:2605.02503: DataClaw——탐색적 데이터 분석에서 AI 에이전트의 프로세스 품질을 측정하는 과정 중심 벤치마크

편집 일러스트: AI 에이전트가 중간 결과가 포함된 인터랙티브 노트북에서 탐색적 데이터 분석 단계를 안내하고 있습니다

DataClaw는 AI 에이전트가 탐색적 데이터 분석에서 어떻게 작업하는지 완전한 과정을 평가하는 새로운 벤치마크입니다. 최종 답변만이 아니라 잘못된 방법으로 올바른 결과에 도달하는 에이전트의 약점을 드러냅니다.

🔧 하드웨어 (1)

🟡 🔧 하드웨어 2026년 5월 6일 · 1 분 읽기

AMD: FarSkip-Collective, AMD GPU에서 MoE 추론 속도 18~34% 향상

편집 일러스트: MoE 추론 중 유휴 블록 없이 AMD GPU 간을 흐르는 병렬 데이터 스트림

AMD ROCm 팀이 전문가 병렬 통신 중 GPU 유휴 시간을 제거하는 개선된 MoE 아키텍처인 FarSkip-Collective를 발표했습니다. 결과: Llama-4 Scout의 TTFT 18% 감소, DeepSeek-V3 최대 1.34배 가속, Moonlight 사전 훈련 단계 11% 향상.

🏥 실무 (2)

🟡 🏥 실무 2026년 5월 6일 · 2 분 읽기

IBM: Enterprise Advantage에 Context Studio 추가——Providence Health 채용 관리 시간 90% 단축

편집 일러스트: 조직 데이터로 AI 에이전트를 구축하는 IBM Enterprise Advantage Context Studio

IBM은 Context Studio 출시로 Enterprise Advantage 플랫폼을 확장했습니다. 이는 디지털 주권을 보호하면서 조직 고유 데이터 기반으로 AI 에이전트를 구축하는 도구입니다. Providence Health는 채용 관리 시간을 90% 단축했으며, IBM은 18개월 내 운영 비용 25% 이상 절감을 예상합니다.

🟢 🏥 실무 2026년 5월 6일 · 1 분 읽기

Anthropic: Claude Code v2.1.131 — Windows VS Code 활성화 및 Mantle x-api-key 핫픽스

편집 일러스트: Windows VS Code 및 Mantle 인증을 위한 Claude Code v2.1.131 핫픽스

Anthropic이 Claude Code v2.1.131 핫픽스 릴리스를 공개했습니다. 하드코딩된 빌드 경로로 인한 Windows에서의 VS Code 확장 활성화 실패와 Mantle 추론 엔드포인트에 대한 x-api-key 헤더 누락 두 가지 버그를 수정합니다. 모든 주요 플랫폼용 바이너리가 게시되었습니다.

💬 커뮤니티 (1)

🟢 💬 커뮤니티 2026년 5월 6일 · 2 분 읽기

CNCF: 46.7%의 클라우드 네이티브 팀이 여전히 2-3개의 병렬 관찰 가능성 스택을 운영 중

편집 일러스트: CNCF 2026년 관찰 가능성 설문 조사, 46.7%의 팀이 여러 병렬 스택을 운영

CNCF가 407명의 클라우드 네이티브 전문가를 대상으로 한 2월 설문 조사를 발표했습니다. 46.7%의 조직이 아직도 두 개에서 세 개의 관찰 가능성 도구를 병렬로 운영하며, 통합을 달성한 곳은 7.4%에 불과합니다. 대시보드 및 알림 설정이 가장 큰 과제이며, OpenTelemetry가 통합 허브로서 선두를 달리고 있습니다.

🛡️ 보안 (1)

🟡 🛡️ 보안 2026년 5월 6일 · 2 분 읽기

GitHub: MCP 서버를 통한 시크릿 스캔 GA 출시——AI 에이전트가 커밋 전 자격 증명 탐지

편집 일러스트: 개발 환경에서 AI 에이전트가 커밋 전 코드의 노출된 API 키에 플래그를 지정하고 있습니다

GitHub이 GitHub MCP 서버를 통한 시크릿 스캔의 일반 제공(GA)을 발표했습니다. AI 코딩 에이전트와 개발 환경이 코드가 리포지토리에 들어가기 전에 노출된 자격 증명을 탐지할 수 있는 도구입니다.

← 전날 다음 날 →