MathNet: 47개국 30,676개 올림피아드 문제, 최신 모델도 여전히 뒤처져
MIT 팀이 47개국 17개 언어에서 수집한 30,676개의 올림피아드 수학 문제가 있는 멀티모달 벤치마크 MathNet을 발표했습니다. Gemini-3.1-Pro는 78.4%, GPT-5는 69.3%를 달성하며, 임베딩 모델은 수학적으로 동일한 문제를 찾는 데 큰 어려움을 보입니다.
16 개 뉴스 — 🔴 3 중요 , 🟡 7 주목 , 🟢 6 흥미
MIT 팀이 47개국 17개 언어에서 수집한 30,676개의 올림피아드 수학 문제가 있는 멀티모달 벤치마크 MathNet을 발표했습니다. Gemini-3.1-Pro는 78.4%, GPT-5는 69.3%를 달성하며, 임베딩 모델은 수학적으로 동일한 문제를 찾는 데 큰 어려움을 보입니다.
xAI가 음성-텍스트 변환(STT) API가 베타 단계에서 정식 출시(GA) 단계로 전환되었다고 발표했습니다. 이 서비스는 25개 언어를 지원하고 배치 및 스트리밍 모드를 제공하며 대기자 명단 없이 이용 가능합니다. 이전에 GA로 발표된 Grok Voice Agent API와 함께 완전한 음성 스택을 완성합니다.
Google이 ReasoningBank를 발표했습니다. 언어 모델 재훈련 없이 AI 에이전트가 자신의 성공과 실패에서 학습할 수 있는 메모리 프레임워크입니다. WebArena 벤치마크에서 성공률 8.3% 향상, SWE-Bench-Verified에서 4.6% 향상, 작업당 약 3단계 감소를 달성했습니다.
OpenAI가 Codex Labs 프로그램을 출시하고 Accenture, Deloitte, KPMG와 전략적 파트너십을 맺어 Codex 에이전트를 전 세계 대기업에 도입합니다. 이 도구는 주간 활성 사용자 400만 명을 달성했으며, 컨설턴트 인증 및 소비 기반 과금 엔터프라이즈 패키지를 제공합니다.
Agent-World는 중국 런민대학교가 개발한 새로운 연구 프레임워크로, AI 에이전트 훈련을 위해 수천 가지 다양한 환경을 자동으로 생성합니다. 수작업으로 만든 벤치마크를 동적 시나리오로 대체하고 에이전트와 환경의 공진화를 통한 진화적 학습을 가능하게 합니다.
Google이 Gemini API에 두 가지 새로운 Deep Research 에이전트 버전——deep-research-preview-04-2026과 deep-research-max-preview-04-2026——을 출시했습니다. MCP 서버 통합, 협업 계획, 시각화, 스트리밍 응답을 갖추고 있습니다. 이 행보는 Gemini를 ChatGPT Deep Research와 Perplexity Deep Research의 진지한 경쟁자로 자리매김합니다.
새로운 arXiv 서베이 논문이 고전적인 다중 에이전트 시스템 문헌과 현대 LLM 에이전트 스택을 포괄적으로 연결합니다. 이 논문은 조율 메커니즘, 통신 프로토콜, 창발적 행동에서의 패러다임 전환을 규명합니다. 저수준 상태 교환에서 의미론적 추론으로의 전환입니다.
AWS와 Anthropic이 AWS 계정 내에서 Amazon Bedrock을 통해 Claude Cowork 데스크톱 애플리케이션을 실행할 수 있게 합니다. 데이터는 사용자 통제 하에 유지되고, 모델은 이를 훈련에 사용하지 않으며, IAM 및 CloudTrail과의 통합으로 엔터프라이즈 수준의 감사를 제공합니다. 비용은 기존 AWS 계약을 통해 지불됩니다.
STCLab SRE 팀이 ReAct 패턴과 CNCF 도구를 갖춘 HolmesGPT로 Kubernetes 경보를 자동 진단합니다. 비용은 조사 건당 0.04달러, 약 40%의 경보가 자율적으로 해결되며, 가장 중요한 교훈: 양질의 runbook이 모델 선택보다 더 중요합니다.
Eranga Bandara가 이끄는 연구자들이 DSM-5 준거 정신과 평가를 위해 Gemma, Phi-3.5-mini, Qwen2를 로컬로 조율하는 모바일 애플리케이션을 발표했습니다. 시스템은 클라우드에 데이터를 보내지 않으며, 군대, 사법 시스템, 원격 의료 등 민감한 맥락을 대상으로 합니다.
새로운 DESPITE 벤치마크가 23개 언어 모델을 12,279개 로봇 계획 작업으로 평가했습니다. 결과: 최고 계획자는 0.4% 케이스에서만 실패하지만 28.3%의 위험한 계획을 생성합니다. 계획 능력과 안전성은 직교 능력입니다——모델 스케일링으로 안전 결함이 해결되지 않습니다.
HuggingFace가 선언문을 발표했습니다. Margaret Mitchell, Yacine Jernite, Clem Delangue와 17명의 공동 저자가 폐쇄형 AI 시스템이 사이버 보안의 단일 실패 지점이라고 주장합니다. Anthropic Mythos에 대한 응답으로, 감사 가능한 로그와 인간 감독이 있는 반자율 에이전트를 촉구합니다.
GitHub이 CodeQL 2.25.2에서 YAML을 통한 새니타이저와 유효성 검사기의 선언적 정의를 가능하게 했습니다. QL 코드 작성이 필요 없습니다. 8개 언어(C/C++, C#, Go, Java/Kotlin, JS/TS, Python, Ruby, Rust)를 지원하여 QL 전문가 없이도 정적 보안 분석을 가능하게 합니다.