2026년 5월 5일 화요일

15 개 뉴스 — 🔴 3 중요 , 🟡 10 주목 , 🟢 2 흥미

← 전날 다음 날 →

🤖 모델 (4)

🟡 🤖 모델 2026년 5월 5일 · 2 분 읽기

ArXiv AgentFloor:소형 오픈웨이트 모델(0.27B-32B)이 단기 에이전트 작업에 충분, GPT-5는 장기 계획에서만 우위

편집 일러스트: 다양한 크기의 모델이 다른 수준에 배치된 능력 사다리, 도구 사용 평가의 상징

Ranit Karmakar와 Jayita Chatterjee가 AgentFloor를 발표했습니다——6개 능력 수준으로 구성된 30개 작업의 결정론적 네트워크로, 0.27B에서 32B 범위의 16개 오픈웨이트 모델과 GPT-5를 평가했습니다. 결론: 소형 모델은 단기적이고 구조화된 에이전트 작업에 이미 충분하며, 프런티어 모델은 제약이 있는 장기 계획에서만 명확한 우위를 유지합니다.

🟡 🤖 모델 2026년 5월 5일 · 2 분 읽기

ArXiv Token Arena:에너지와 인지를 통합한 지속적 벤치마크, 엔드포인트 간 정답당 에너지 6.2배 차이 발견

편집 일러스트: AI 추론 엔드포인트의 에너지와 인지를 측정하는 저울, 다차원 벤치마크의 상징

Yuxuan Gao, Megan Wang, Yi Ling Yu가 2026년 5월 1일 Token Arena를 발표했습니다——엔드포인트 수준에서(78개 엔드포인트, 12개 모델 패밀리)AI 추론을 평가하는 지속적 벤치마크 플랫폼입니다. 같은 모델이 서로 다른 엔드포인트에서 수학/코드 벤치마크에서 최대 12.5점, 꼬리 지연에서 수십 배, 정답당 에너지에서 최대 6.2배 차이가 날 수 있음을 밝혔습니다. 플랫폼은 CC BY 4.0 라이선스로 결과를 공개합니다.

🟡 🤖 모델 2026년 5월 5일 · 2 분 읽기

NIST CAISI:DeepSeek V4 Pro, 지금까지 평가된 최강 중국 AI 모델이지만 미국 프런티어에 8개월 뒤처져

편집 일러스트: 8개월 격차를 표시하는 타임라인의 AI 모델, 독립 평가의 상징

미국 NIST 산하 인공지능 표준 및 혁신 센터(CAISI)가 2026년 5월 1일 DeepSeek V4 Pro 모델에 대한 독립 평가를 발표했습니다. 결론: 지금까지 평가된 PRC AI 모델 중 가장 뛰어나지만, 종합 능력에서 미국 프런티어보다 약 8개월 뒤처집니다. 평가는 사이버 보안, 소프트웨어 엔지니어링, 자연과학, 추상적 추론, 수학의 5개 영역에서 미공개 벤치마크를 사용하여 수행되었습니다.

🟢 🤖 모델 2026년 5월 5일 · 3 분 읽기

arXiv:2605.02572: 긴 호라이즌이 LLM 학습을 불안정하게 만든다 — ICML 2026 논문, '호라이즌 일반화'를 해결책으로 제시

편집 일러스트: 신경 노드와 데이터 흐름이 수렴하는 균열된 수평선

ICML 2026 채택 논문이 탐색 및 신용 할당 문제로 인해 과제 호라이즌 길이 증가가 심각한 LLM 학습 불안정을 유발한다는 것을 실증적으로 증명합니다. 제안된 해결책: 학습 시 호라이즌을 단축하고 추론 시 명시적인 '호라이즌 일반화' 메커니즘을 사용하는 방식입니다. 이 논문은 프론티어 모델 학습에서 과제 호라이즌 스케일링에 관한 최초의 실증적 규칙을 수립합니다.

⚖️ 규제 (1)

🤝 에이전트 (3)

🟡 🤝 에이전트 2026년 5월 5일 · 3 분 읽기

ArXiv GUI-SD:GUI 그라운딩을 위한 최초의 온폴리시 자기 증류 프레임워크, 6개 벤치마크에서 GRPO 강화학습 능가

편집 일러스트: GUI 요소의 특권 시각 컨텍스트를 가진 교사-학생 역학, 자기 증류의 상징

Yan Zhang, Daiqing Wu, Huawen Shen이 GUI-SD를 발표했습니다——AI 에이전트가 자연어 지시를 UI 요소의 시각 좌표에 매핑하는 능력인 GUI 그라운딩에 특화된 최초의 온폴리시 자기 증류(OPSD) 프레임워크입니다. 특권 시각 컨텍스트(바운딩 박스와 가우시안 소프트 마스크)와 엔트로피 가이드 증류를 사용합니다. 6개의 대표적인 GUI 그라운딩 벤치마크에서 GUI-SD는 GRPO 기반 강화학습 방법을 지속적으로 능가합니다.

🟡 🤝 에이전트 2026년 5월 5일 · 2 분 읽기

AWS Bedrock AgentCore Optimization 프리뷰 출시:OpenTelemetry 트레이스로 생산에서 A/B 테스트까지 자동화 루프 구현

편집 일러스트: AI 에이전트를 둘러싼 생산·평가·A/B 테스트 클로즈드 루프, 최적화의 상징

AWS가 2026년 5월 4일 AgentCore Optimization을 프리뷰로 발표했습니다. 프로덕션 트레이스에서 시스템 프롬프트와 도구 설명에 대한 구체적인 개선 제안을 생성하고, 테스트 세트에 대한 배치 평가, 통계적 유의성을 갖춘 A/B 테스트를 수행하는 자동화 루프입니다. 시스템은 모든 모델 호출, 도구 호출, 추론 단계를 OpenTelemetry 호환 트레이스로 수집하여 수동 추측 수정을 프로덕션 데이터 기반의 구조화된 사이클로 대체합니다.

🟡 🤝 에이전트 2026년 5월 5일 · 2 분 읽기

AWS SageMaker AI, 9개 내장 스킬 에이전트 파인튜닝 워크플로우 도입 — Kiro 및 Claude Code 통합

편집 일러스트: 9개의 모듈과 칩 네트워크로 둘러싸인 미래지향적 로봇 팔

Amazon은 2026년 5월 4일 SageMaker AI에 에이전트 기반 워크플로우를 출시했습니다. 유스케이스 명세부터 배포까지 전체 모델 커스터마이징 라이프사이클을 아우르는 9개의 내장 스킬 에이전트를 제공하며, SFT·DPO·RLVR 훈련 방법을 지원합니다. JupyterLab 환경에서 Kiro(기본)와 Claude Code와 통합되며, 수개월의 전문 ML 작업을 수일로 단축한다고 주장합니다.

🔧 하드웨어 (1)

🏥 실무 (2)

💬 커뮤니티 (2)

🛡️ 보안 (2)

← 전날 다음 날 →