arXiv是由康奈尔大学运营的科学预印本开放存档库。论文不一定经过同行评审，但许多最终发表在学术会议上。

什么是多模态基准测试？

多模态基准测试包含多种类型的输入，通常是文本和图像。对于数学来说很重要，因为奥林匹克题目包含几何图形和图表。

MathNet：来自47个国家的30,676道奥林匹克题目，顶级模型仍有差距

由Shaden Alshammari领导的MIT研究团队发布了MathNet，迄今最大的奥林匹克数学题目多模态基准测试。该论文已被ICLR 2026会议接受。

MathNet带来了什么

MathNet包含30,676道由专家编写的附有解答的题目，收集自47个国家17种语言二十年的数学奥林匹克竞赛。数据集是多模态的，意味着它包括文字表述以及奥林匹克数学中不可或缺的图表、图形和几何草图。基准测试衡量三个不同的任务：解题、数学检索准确性以及检索增强解题。对于后两者，研究人员手工整理了数学等价但结构上表述不同的题目对。

当前模型的结果

顶级模型显示出显著的差距。Gemini-3.1-Pro达到78.4%的准确率，而GPT-5达到69.3%。尽管这些对于复杂的奥林匹克题目来说是令人印象深刻的数字，但结果证实，最高水平的数学推理尚未完全解决。一个有趣的发现是，将文本转换为数字向量进行相似性搜索的嵌入模型，在找到用不同词汇表述的数学等价问题时有很大困难。这是关键的，因为检索增强方法依赖于搜索质量。

为什么检索质量改变了游戏规则

DeepSeek-V3.2-Speciale模型在获得高质量的相关题目检索时提高了多达12个百分点。这表明数学AI的未来进展不仅仅来自更大的模型，还来自专门针对数学语义的更好的嵌入架构。经典文本嵌入在通用语料库上训练，其中关于丢番图方程的两道题目如果使用不同的符号或语言可能看起来非常不同。对专门化数学嵌入的需求创造了新研究方向的机会，而MathNet为其评估提供了标准化的题目对集合。数据集和基准测试在Creative Commons BY 4.0许可证下可在mathnet.mit.edu公开获取。作者还包括Kevin Wen、Abrar Zainal、Mark Hamilton、Navid Safaei、Sultan Albarakati、William T. Freeman和Antonio Torralba，预计将围绕数据集的维护和扩展形成活跃的社区。

MathNet：来自47个国家的30,676道奥林匹克题目，顶级模型仍有差距

MathNet：来自47个国家的30,676道奥林匹克题目，顶级模型仍有差距

MathNet带来了什么

当前模型的结果

为什么检索质量改变了游戏规则

来源

相关新闻