ArXiv SUPERNOVA: 자연 명령에 대한 강화학습으로 추론 능력 52.8% 향상
새로운 논문 SUPERNOVA는 기존 명령어 튜닝 데이터셋의 체계적인 큐레이션이 LLM의 추론 능력을 크게 향상시킬 수 있음을 보여줍니다. SUPERNOVA로 훈련된 모델은 BBEH 벤치마크에서 최대 52.8%의 상대적 개선을 달성했습니다.
8 개 뉴스 — 🔴 2 중요 , 🟡 4 주목 , 🟢 2 흥미
Anthropic은 AI 에이전트를 신뢰할 수 있는 방식으로 개발, 배포 및 사용하는 것이 무엇을 의미하는지 정의하는 포괄적인 정책 프레임워크 'Trustworthy agents in practice'를 발표했습니다. 이 문서는 에이전트를 구축하거나 사용하는 기업을 위한 지침으로 작동합니다.
새로운 논문 PASK는 의도 감지, 하이브리드 메모리, 자발적 행동을 결합한 능동적 AI 에이전트 프레임워크를 제시합니다. IntentFlow 모델은 잠재적 사용자 니즈 인식에서 선도적인 Gemini 3 Flash 모델 수준에 도달했습니다.
ACL 2026에 채택된 새로운 방법 SAVeR(Self-Audited Verified Reasoning)는 LLM 에이전트가 행동을 실행하기 전에 자체적으로 검토할 수 있게 합니다. 목표: 논리적 제약을 위반하는 일관된 추론이 잘못된 결정으로 이어지는 것을 방지합니다.
연구자들은 KnowU-Bench를 발표했습니다. 이는 장기간 사용을 통한 상호작용성, 능동성, 개인화에 초점을 맞춘 새로운 세대의 모바일 AI 에이전트를 평가하기 위한 포괄적인 벤치마크입니다.