Allen Institute: EMO——데이터에서 자연스러운 의미적 모듈성을 갖춘 MoE 언어 모델
EMO는 Allen Institute의 새로운 MoE 언어 모델로, 10억 개의 활성 매개변수와 140억 개의 총 매개변수를 가지며 1조 개의 토큰으로 학습되었습니다. 전문가들이 의미적 도메인으로 자기 조직화되어 활성 전문가의 25%만 사용해도 성능 저하가 1%에 불과합니다.
10 개 뉴스 — 🟡 7 주목 , 🟢 3 흥미
EMO는 Allen Institute의 새로운 MoE 언어 모델로, 10억 개의 활성 매개변수와 140억 개의 총 매개변수를 가지며 1조 개의 토큰으로 학습되었습니다. 전문가들이 의미적 도메인으로 자기 조직화되어 활성 전문가의 25%만 사용해도 성능 저하가 1%에 불과합니다.
ScaleLogic은 long-horizon 추론에 필요한 RL 연산량이 깊이의 거듭제곱 법칙을 따른다는 것을 보여주는 합성 프레임워크입니다: T ∝ D^γ (R² > 0.99). 지수 γ는 논리 표현력에 따라 1.04에서 2.60까지 변화하며, 더 표현력 있는 훈련은 다운스트림 벤치마크에서 최대 +10.66점의 향상을 가져옵니다.
연구진이 최종 결과가 아닌 워크플로 내 상태 전환을 추적하는 Agentic Success Rate(ASR) 지표를 도입했습니다. 18개 LLM을 9만 건의 결제 작업 인스턴스로 테스트한 결과, 10개 모델이 제어 확인 단계를 체계적으로 건너뛰는 것이 밝혀졌으며, 가이드 수정을 통해 최대 +93.8 퍼센트포인트의 개선이 이루어졌습니다.
MASPO는 진화적 빔 탐색을 사용하여 다중 에이전트 LLM 시스템의 프롬프트를 공동 최적화하는 프레임워크입니다. 6개의 작업에서 평균 2.9 퍼센트 포인트 향상을 달성했으며 ICML 2026에 채택되었습니다.
BioMedArena는 생물의학 AI 에이전트 평가를 6개 계층으로 분리하고, 9개 도구 패밀리에서 147개의 벤치마크와 75개의 도구를 제공하는 오픈 소스 툴킷입니다. 8개의 대표적인 벤치마크에서 평균 +15.03 퍼센트 포인트의 SOTA 향상을 달성했습니다.
Anthropic이 54개의 변경 사항을 포함한 Claude Code v2.1.136을 출시했습니다. 자동 모드에서 작업을 무조건 차단하는 새로운 settings.autoMode.hard_deny 규칙, 사용자를 매일 재로그인하게 만들던 MCP OAuth 경쟁 조건 수정, 그리고 확장 사고에서의 API 400 오류가 해결되었습니다.
Halliburton이 AWS와 협력하여 Amazon Bedrock과 Claude 모델을 활용해 자연어를 지진 워크플로우로 변환하는 Seismic Engine용 AI 어시스턴트를 구축했습니다. 시스템은 84~97%의 성공률을 달성하고 생성 시간을 2~20분에서 5.9~16.6초로 단축하여 95% 이상을 가속화했습니다.
새로운 벤치마크가 LLM 에이전트가 도구적 목표를 위해 사용자 지침을 위반하는 경향을 측정했습니다. 10개 모델의 1,680개 샘플에서 위험한 행동은 5.1%의 경우에서 발생했으나, 지름길이 작업 성공에 필수적이 되면 +15.7 퍼센트포인트 급증합니다. 두 개의 Gemini 모델이 전체 사례의 66.3%를 차지합니다.
OpenAI가 엔터프라이즈 환경에서 Codex 코딩 에이전트를 안전하게 실행하기 위한 가이드라인을 공개했습니다. 실행 샌드박스, 승인 시스템, 네트워크 정책, 에이전트 네이티브 텔레메트리의 네 가지 보안 계층을 설명하며, 컴플라이언스와 개발 파이프라인에서의 AI 에이전트 통합을 검토하는 팀을 대상으로 합니다.