arXiv：mmPISA-bench 在 43 种语言上测试推理能力

紧凑型多语言推理基准 mmPISA-bench 源自 OECD PISA 测试，覆盖 43 种语言，共计 2,150 个数据点。现代 LLM 在所有语言上都能有效推理，机器翻译的表现与人工翻译相当。某些语言同时表现出更高的成本和更低的准确率。

研究人员于 2026 年 6 月 5 日在 arXiv 仓库发布了一篇论文（编号 arXiv:2606.07069），提出了 mmPISA-bench——一个用于语言模型推理（reasoning）的紧凑型多语言基准。该基准源自国际 OECD PISA 测试，覆盖多达 43 种语言，由此直接拷问现代模型在不同查询语言下的推理表现究竟有多均衡。

mmPISA-bench 是什么，它从何而来？

基准的基础是 OECD PISA，这是一项著名的、衡量学生教育成就的国际测试。作者从中抽取了 25 道多项选择题（multiple-choice），这些题目要求真正的推理，而非对事实的简单回忆。

这 25 道题被翻译成 43 种语言的官方人工翻译，并在此基础上加入了机器翻译。所有语言与翻译类型的组合总共得到 2,150 个数据点。这里「紧凑型」基准的称谓名副其实：数据集刻意保持小巧，却经过精心构造，以便恰好衡量推理能力。

模型在所有语言上的推理能力是否同样出色？

论文的主要发现令人鼓舞：现代 LLM 在所有语言上都能有效推理，准确率与人类受试者相当。这意味着解决高难度、逻辑导向题目的能力并非只属于英语等主导语言，而是同样能迁移到资源较少的语言。

不过，整体图景并非完全一致。作者提醒，某些语言同时表现出更高的推理成本和更低的准确率——换言之，对于个别语言，模型消耗了更多资源，却仍取得较差的结果。这种不对称性仍是有待进一步改进的开放领域。

机器翻译的质量是否足够？

一个特别实用的发现关乎机器翻译。在研究中，机器翻译的表现与人工翻译相当，这表明合成数据（机器生成的）的质量足以支撑大规模评估。

这对社区很重要，因为多语言基准的构建通常依赖于昂贵且缓慢的人工翻译。如果机器翻译能给出可比的结果，就为更快、更便宜地构建覆盖众多语言的基准开辟了道路。

这个基准为何具有现实意义？

mmPISA-bench 填补了评估中的一项空白，因为它聚焦于推理，而不仅是翻译或文本理解，并且同时在大量语言上进行。由此它给出了更清晰的图景：模型的高级能力究竟是真正全球可用，还是集中在少数几种语言之中。

论文的结论——模型在各地都能有效推理，但成本和准确率上仍存差异——也为开发团队提供了具体指引。为目前落后的语言优化推理成本，可能是迈向真正平等的多语言推理的下一步。

值得强调的还有论文在方法论上的启示。通过表明仅由 25 道精心挑选、铺展到 43 种语言的题目所组成的紧凑集合就能给出有意义的洞见，mmPISA-bench 提示我们：一个高质量的基准并不一定要规模庞大才有用。依托公认的 OECD PISA 来源进一步增强了题目的可信度，因为它们本就是为衡量人类的真实推理而设计的。

常见问题

什么是 mmPISA-bench？

mmPISA-bench 是一个源自 OECD PISA 测试的紧凑型多语言推理（reasoning）基准。它由 25 道需要推理的多项选择题组成，被翻译成 43 种语言。除官方人工翻译外，它还包含机器翻译，从而总共得到 2,150 个数据点。

模型在所有语言上的推理能力是否同样出色？

根据结果，现代语言模型在所有语言上都能有效推理，准确率与人类受试者相当。不过，某些语言同时表现出更高的推理（inference）成本和更低的准确率，因此语言之间的差异并未完全消失。

机器翻译对此类评估是否足够好？

是的。在 mmPISA-bench 研究中，机器翻译的表现与人工翻译相当，这表明合成（机器翻译）数据的质量足以支撑大规模评估。这使得多语言基准的构建更加容易，因为它不再完全依赖昂贵的人工翻译。

arXiv:2606.07069：mmPISA-bench——LLM 在 43 种语言上的推理能力是否同样出色？

mmPISA-bench 是什么，它从何而来？

模型在所有语言上的推理能力是否同样出色？

机器翻译的质量是否足够？

这个基准为何具有现实意义？

常见问题

来源

相关新闻