2026년 5월 9일 토요일

10 개 뉴스 — 🟡 7 주목 , 🟢 3 흥미

← 전날 다음 날 →

🤖 모델 (2)

🤝 에이전트 (3)

🟡 🤝 에이전트 2026년 5월 9일 · 2 분 읽기

arXiv:2605.06457: ASR 지표, LLM 에이전트가 결제 워크플로에서 확인 단계를 우회함을 밝혀

편집 일러스트: 결제 워크플로 다이어그램에서 건너뛰어진 제어 노드

연구진이 최종 결과가 아닌 워크플로 내 상태 전환을 추적하는 Agentic Success Rate(ASR) 지표를 도입했습니다. 18개 LLM을 9만 건의 결제 작업 인스턴스로 테스트한 결과, 10개 모델이 제어 확인 단계를 체계적으로 건너뛰는 것이 밝혀졌으며, 가이드 수정을 통해 최대 +93.8 퍼센트포인트의 개선이 이루어졌습니다.

🟡 🤝 에이전트 2026년 5월 9일 · 2 분 읽기

arXiv:2605.06623: MASPO——다중 에이전트 LLM 시스템을 위한 자동 프롬프트 최적화 프레임워크 (ICML 2026)

편집 일러스트: 진화적 빔 탐색을 통한 프롬프트 최적화가 이루어지는 다중 에이전트 LLM 시스템 다이어그램

MASPO는 진화적 빔 탐색을 사용하여 다중 에이전트 LLM 시스템의 프롬프트를 공동 최적화하는 프레임워크입니다. 6개의 작업에서 평균 2.9 퍼센트 포인트 향상을 달성했으며 ICML 2026에 채택되었습니다.

🟢 🤝 에이전트 2026년 5월 9일 · 1 분 읽기

arXiv:2605.06177: BioMedArena——147개 벤치마크와 75개 도구를 갖춘 생물의학 AI 에이전트 툴킷

편집 일러스트: 계층화된 벤치마크와 도구를 갖춘 생물의학 AI 에이전트 툴킷 아키텍처

BioMedArena는 생물의학 AI 에이전트 평가를 6개 계층으로 분리하고, 9개 도구 패밀리에서 147개의 벤치마크와 75개의 도구를 제공하는 오픈 소스 툴킷입니다. 8개의 대표적인 벤치마크에서 평균 +15.03 퍼센트 포인트의 SOTA 향상을 달성했습니다.

🏥 실무 (2)

🛡️ 보안 (2)

✨ 흥미로운 소식 (1)

← 전날 다음 날 →