MathNet:47カ国から30,676問のオリンピック問題、最新モデルもまだ追いつかず
MITチームがMathNetを発表しました。47カ国17言語から集めた30,676問のオリンピック数学問題のマルチモーダルベンチマークです。Gemini-3.1-Proは78.4%、GPT-5は69.3%を達成し、埋め込みモデルは数学的に同等の問題を見つける際に大きな困難を示します。
16 件 — 🔴 3 重大 , 🟡 7 重要 , 🟢 6 注目
MITチームがMathNetを発表しました。47カ国17言語から集めた30,676問のオリンピック数学問題のマルチモーダルベンチマークです。Gemini-3.1-Proは78.4%、GPT-5は69.3%を達成し、埋め込みモデルは数学的に同等の問題を見つける際に大きな困難を示します。
xAIは音声テキスト変換(STT)APIがベータ段階を経て一般提供(GA)に移行したと発表しました。このサービスは25言語をサポートし、バッチモードとストリーミングモードの両方を提供し、ウェイトリストなしで利用可能です。先行してGAとなったGrok Voice Agent APIと合わせ、音声スタック全体が完成しました。
GoogleはReasoningBankを発表しました。言語モデルの再トレーニングなしに、AIエージェントが自身の成功と失敗から学習できる記憶フレームワークです。WebArenaベンチマークで成功率8.3%向上、SWE-Bench-Verifiedで4.6%向上し、タスクあたり約3ステップを削減します。
OpenAIはCodex Labsプログラムを開始し、Accenture・Deloitte・KPMGとの戦略的提携を通じて、Codexエージェントを世界の大企業に展開します。このツールは週間400万アクティブユーザーを達成し、コンサルタント向け認定資格と消費量ベースのエンタープライズパッケージを提供しています。
Agent-Worldは中国人民大学が開発した新しい研究フレームワークで、AIエージェントのトレーニング用に数千種類の多様な環境を自動生成します。手作業によるベンチマーク作成を動的なシナリオに置き換え、エージェントと環境の共進化を通じた進化的学習を可能にします。
GoogleはGemini APIに2つの新しいDeep Researchエージェントバージョン——deep-research-preview-04-2026とdeep-research-max-preview-04-2026——をリリースしました。MCPサーバー統合、協調的プランニング、ビジュアライゼーション、ストリーミング応答を備えています。この動きはGeminiをChatGPT Deep ResearchとPerplexity Deep Researchの真剣な競合として位置づけます。
新しいarXivサーベイ論文は、古典的なマルチエージェントシステム文献と現代のLLMエージェントスタックを包括的に橋渡ししています。本論文は、協調メカニズム、通信プロトコル、創発的行動における低レベルの状態交換からセマンティック推論へのパラダイムシフトを明らかにしています。
AWSとAnthropicはAWSアカウント内でAmazon Bedrockを通じてClaude Coworkデスクトップアプリケーションを実行できるようにします。データはユーザーの管理下に留まり、モデルはそれで訓練されず、IAMとCloudTrailとの統合でエンタープライズレベルの監査を提供します。支払いは既存のAWS契約を通じて行われます。
STCLab SREチームがReActパターンとCNCFツールを備えたHolmesGPTを使用してKubernetesアラートを自動診断しています。コストは1回の調査で0.04ドル、約40%のアラートが自律的に解決され、最重要な教訓:質の高いrunbookがモデル選択よりも重要です。
Eranga Bandaraが率いる研究者たちが、DSM-5準拠の精神科評価のためにGemma・Phi-3.5-mini・Qwen2をローカルで統合するモバイルアプリを発表しました。システムはデータをクラウドに送らず、軍、司法システム、遠隔医療などの機密性の高いコンテキストを対象としています。
新しいDESPITEベンチマークが23の言語モデルを12,279のロボット計画タスクで評価しました。結果:最高の計画立案者は0.4%のケースでのみ失敗しますが、28.3%の危険な計画を生成します。計画能力と安全性は直交する能力であり、モデルのスケーリングでは安全上の欠陥は解決されません。
HuggingFaceはマニフェストを発表し、Margaret Mitchell、Yacine Jernite、Clem Delangueと17名の共著者が、クローズドAIシステムがサイバーセキュリティの単一障害点であると主張しています。Anthropic Mythosへの回答であり、監査可能なログと人間の監督を備えた半自律エージェントを求めています。
GitHubはCodeQL 2.25.2でYAMLを通じたサニタイザーとバリデーターの宣言的定義を有効にし、QLコードを書く必要がなくなりました。8つの言語(C/C++、C#、Go、Java/Kotlin、JS/TS、Python、Ruby、Rust)をサポートし、QL専門家なしでチームが静的セキュリティ分析を行えるようになります。