arXiv:2605.06651: Google DeepMind发布AI Co-Mathematician,FrontierMath Tier 4得分48%
Google DeepMind团队发表论文,介绍AI Co-Mathematician——一个供AI智能体与数学家协作研究开放问题的交互式工作台。该系统在FrontierMath Tier 4基准测试中获得48%的成绩,创下所有AI系统的新纪录。
本文由人工智能基于一手来源生成。
Google DeepMind研究团队于2026年5月7日在arXiv发表论文《AI Co-Mathematician: Accelerating Mathematicians with Agentic AI》。该系统是一个供AI智能体与数学家协作研究开放问题的交互式工作台,而非自主定理证明器。
AI Co-Mathematician是什么?
该系统作为交互式研究工作台,旨在支持开放性数学探索。它涵盖研究工作的五个核心维度:创意生成(概念发展)、文献检索、计算探索、定理证明和理论构建。作者将其设计描述为「对数学研究工作流程探索性和迭代性现实的整体支持」,协作模式「映射了人类协作过程」——强调伙伴关系而非自动化。
工作台的技术运作原理
工作台采用异步且持久状态设计:智能体可在后台处理假设,同时研究者从事其他工作,且上下文信息跨会话保留。系统执行四项操作功能:管理不确定性、精炼用户意图、追踪失败假设以避免重复尝试,以及以标准格式(LaTeX、Lean证明、计算笔记本)生成数学成果。
FrontierMath Tier 4的48%意味着什么?
FrontierMath是由博士数学家构建的封闭性、未发布问题基准测试;Tier 4为最高难度,需要研究级数学能力,而非奥赛水平。48%的成绩创下所有AI系统的新纪录——相较于此前公布的结果有显著提升。作者表示,与部分数学家的早期测试已帮助解决若干开放问题,表明基准数字与实际研究价值相符。
这对数学界意味着什么?
该论文将AI定位为研究者的加速研究周期的伙伴,而非替代者。追踪失败假设和异步工作的特性意味着数学家可以委托探索任务并在有结果时返回——这与软件开发中使用智能体工具的模式相似。论文未回答的一个开放性问题是:该系统究竟会公开发布还是仅作为Google内部研究工具。18位作者中包括Daniel Zheng、Ingrid von Glehn、Yori Zwols、Pushmeet Kohli和Fernanda Viegas。
常见问题
- 什么是FrontierMath Tier 4?
- FrontierMath是包含数百道极难数学题的基准测试,Tier 4为最高难度,需要博士级研究数学能力;此前所有系统的得分均远低于48%。
- 论文的作者是谁?
- 由Daniel Zheng、Ingrid von Glehn、Yori Zwols、Pushmeet Kohli和Fernanda Viegas领衔的Google DeepMind团队,共18位作者。
- 该系统是否对外开放?
- 论文描述了与部分数学家的早期测试;摘要中未宣布公开访问或API接口。