MathNet:来自47个国家的30,676道奥林匹克题目,顶级模型仍有差距
MIT团队发布了MathNet,一个包含来自47个国家17种语言的30,676道奥林匹克数学题目的多模态基准测试。Gemini-3.1-Pro达到78.4%,GPT-5达到69.3%,而嵌入模型在找到数学等价问题方面有很大困难。
16 条新闻 — 🔴 3 重要 , 🟡 7 值得关注 , 🟢 6 有趣
Google推出ReasoningBank,一个让AI智能体从自身成功与失败中学习的记忆框架,无需重新训练语言模型。在WebArena基准测试中成功率提升8.3%,在SWE-Bench-Verified中提升4.6%,且每个任务减少约3个步骤。
OpenAI推出Codex Labs计划,并与Accenture、Deloitte和KPMG建立战略合作,将Codex智能体引入全球大型企业。该工具已达400万周活跃用户,提供顾问认证和按消费计费的企业套餐。
Agent-World是中国人民大学发布的全新研究框架,可自动生成数千种多样化环境用于AI智能体训练。该框架取代了手工制作的基准测试,通过动态场景和智能体与环境的协同进化实现演化式学习。
Google在Gemini API中推出了两个新版Deep Research智能体——deep-research-preview-04-2026和deep-research-max-preview-04-2026——具备MCP服务器集成、协作规划、可视化和流式响应。此举将Gemini定位为ChatGPT Deep Research和Perplexity Deep Research的有力竞争者。
arXiv发布的新综述全面衔接了经典多智能体系统文献与现代LLM智能体技术栈。该论文识别出协调机制、通信协议和涌现行为方面的范式转变——从低级状态交换演进为语义推理。
AWS和Anthropic允许在AWS账户内通过Amazon Bedrock运行Claude Cowork桌面应用程序。数据留在用户控制下,模型不会在其上训练,与IAM和CloudTrail的集成提供企业级审计。费用通过现有AWS合同支付。
STCLab SRE团队使用带有ReAct模式和CNCF工具的HolmesGPT自动诊断Kubernetes警报。每次调查费用为0.04美元,约40%的警报可自主解决,最重要的经验:质量好的runbook比模型选择更重要。
由Eranga Bandara带领的研究人员发布了一款移动应用程序,该程序在本地协调Gemma、Phi-3.5-mini和Qwen2进行符合DSM-5的精神科评估。系统不向云端发送数据,针对军队、司法系统和偏远医疗等敏感场景。
新的DESPITE基准测试对23个语言模型进行了12,279个机器人规划任务的评估。结果:最佳规划器仅在0.4%的情况下失败,但会产生28.3%的危险计划。规划能力和安全性是正交能力——模型扩展并不能解决安全缺陷。
HuggingFace发布了一份宣言,Margaret Mitchell、Yacine Jernite、Clem Delangue及17位联合作者主张,封闭AI系统是网络安全的单点故障。这是对Anthropic Mythos项目的回应,呼吁采用具有可审计日志和人工监督的半自主智能体。
GitHub在CodeQL 2.25.2中通过YAML实现了清洁器和验证器的声明式定义,无需编写QL代码。支持8种语言(C/C++、C#、Go、Java/Kotlin、JS/TS、Python、Ruby、Rust),让没有QL专家的团队也能进行静态安全分析。