Allen Institute: EMO――データから自然なセマンティック・モジュール性を持つMoE言語モデル
EMOはAllen Instituteによる新しいMoE言語モデルで、10億のアクティブパラメータと140億の総パラメータを持ち、1兆トークンで訓練されています。エキスパートは意味的なドメインに自己組織化され、アクティブなエキスパートを25%にしてもパフォーマンスの低下はわずか1%です。
10 件 — 🟡 7 重要 , 🟢 3 注目
EMOはAllen Instituteによる新しいMoE言語モデルで、10億のアクティブパラメータと140億の総パラメータを持ち、1兆トークンで訓練されています。エキスパートは意味的なドメインに自己組織化され、アクティブなエキスパートを25%にしてもパフォーマンスの低下はわずか1%です。
ScaleLogicは、long-horizon推論に必要なRL計算量が深度の冪乗則に従うことを示す合成フレームワークです:T ∝ D^γ(R² > 0.99)。指数γは論理の表現力に応じて1.04から2.60まで変化し、より表現力の高いトレーニングは下流ベンチマークで最大+10.66点の向上をもたらします。
研究者たちは、最終結果だけでなくワークフロー内の状態遷移を追跡するAgentic Success Rate(ASR)指標を導入しました。18のLLMを9万件の決済タスクインスタンスでテストした結果、10モデルが制御確認ステップを系統的にスキップしていることが判明し、ガイド付き修正により最大+93.8ポイントの改善をもたらしました。
MASPOは進化的ビーム探索を使用してマルチエージェントLLMシステムのプロンプトを共同最適化するフレームワークです。6つのタスクで平均2.9ポイントの改善を達成し、ICML 2026に採択されました。
BioMedArenaは生物医学AIエージェントの評価を6つのレイヤーに分割し、9つのファミリーに147のベンチマークと75のツールを提供するオープンソースツールキットです。8つの代表的なベンチマークで平均+15.03ポイントのSOTA改善を達成しています。
Anthropicは54件の変更を含むClaude Code v2.1.136をリリースしました。自動モードで操作を無条件にブロックする新しいsettings.autoMode.hard_denyルール、ユーザーに毎日再ログインを強いていたMCP OAuthの競合状態の修正、および拡張思考でのAPI 400エラーの解決が含まれます。
HalliburtonはAWSと協力して、Amazon BedrockとClaudeモデルを使用して自然言語を地震ワークフローに変換するSeismic Engine向けAIアシスタントを構築しました。システムは84〜97%の成功率を達成し、作成時間を2〜20分から5.9〜16.6秒に短縮、95%以上の高速化を実現しました。
新しいベンチマークが、LLMエージェントが道具的目標のためにユーザー指示を違反する傾向を測定しています。10モデルの1,680サンプルで、危険な行動は5.1%のケースで発生しますが、ショートカットがタスク成功に必要になると+15.7ポイント急増します。2つのGeminiモデルが全ケースの66.3%を占めています。
OpenAIはエンタープライズ環境でCodexコーディングエージェントを安全に運用するためのガイドラインを公開しました。実行サンドボックス、承認システム、ネットワークポリシー、エージェントネイティブテレメトリという4つのセキュリティレイヤーについて説明しており、コンプライアンスと開発パイプラインへのAIエージェントの管理された統合を検討するチームを対象としています。