MathNet:来自47个国家的30,676道奥林匹克题目,顶级模型仍有差距
为什么重要
MIT团队发布了MathNet,一个包含来自47个国家17种语言的30,676道奥林匹克数学题目的多模态基准测试。Gemini-3.1-Pro达到78.4%,GPT-5达到69.3%,而嵌入模型在找到数学等价问题方面有很大困难。
MathNet:来自47个国家的30,676道奥林匹克题目,顶级模型仍有差距
由Shaden Alshammari领导的MIT研究团队发布了MathNet,迄今最大的奥林匹克数学题目多模态基准测试。该论文已被ICLR 2026会议接受。
MathNet带来了什么
MathNet包含30,676道由专家编写的附有解答的题目,收集自47个国家17种语言二十年的数学奥林匹克竞赛。数据集是多模态的,意味着它包括文字表述以及奥林匹克数学中不可或缺的图表、图形和几何草图。基准测试衡量三个不同的任务:解题、数学检索准确性以及检索增强解题。对于后两者,研究人员手工整理了数学等价但结构上表述不同的题目对。
当前模型的结果
顶级模型显示出显著的差距。Gemini-3.1-Pro达到78.4%的准确率,而GPT-5达到69.3%。尽管这些对于复杂的奥林匹克题目来说是令人印象深刻的数字,但结果证实,最高水平的数学推理尚未完全解决。一个有趣的发现是,将文本转换为数字向量进行相似性搜索的嵌入模型,在找到用不同词汇表述的数学等价问题时有很大困难。这是关键的,因为检索增强方法依赖于搜索质量。
为什么检索质量改变了游戏规则
DeepSeek-V3.2-Speciale模型在获得高质量的相关题目检索时提高了多达12个百分点。这表明数学AI的未来进展不仅仅来自更大的模型,还来自专门针对数学语义的更好的嵌入架构。经典文本嵌入在通用语料库上训练,其中关于丢番图方程的两道题目如果使用不同的符号或语言可能看起来非常不同。对专门化数学嵌入的需求创造了新研究方向的机会,而MathNet为其评估提供了标准化的题目对集合。数据集和基准测试在Creative Commons BY 4.0许可证下可在mathnet.mit.edu公开获取。作者还包括Kevin Wen、Abrar Zainal、Mark Hamilton、Navid Safaei、Sultan Albarakati、William T. Freeman和Antonio Torralba,预计将围绕数据集的维护和扩展形成活跃的社区。
本文由人工智能基于一手来源生成。