arXiv:2606.07069:mmPISA-bench——LLM 在 43 种语言上的推理能力是否同样出色?
紧凑型多语言推理基准 mmPISA-bench 源自 OECD PISA 测试,覆盖 43 种语言,共计 2,150 个数据点。现代 LLM 在所有语言上都能有效推理,机器翻译的表现与人工翻译相当。某些语言同时表现出更高的成本和更低的准确率。
本文由人工智能基于一手来源生成。
研究人员于 2026 年 6 月 5 日在 arXiv 仓库发布了一篇论文(编号 arXiv:2606.07069),提出了 mmPISA-bench——一个用于语言模型推理(reasoning)的紧凑型多语言基准。该基准源自国际 OECD PISA 测试,覆盖多达 43 种语言,由此直接拷问现代模型在不同查询语言下的推理表现究竟有多均衡。
mmPISA-bench 是什么,它从何而来?
基准的基础是 OECD PISA,这是一项著名的、衡量学生教育成就的国际测试。作者从中抽取了 25 道多项选择题(multiple-choice),这些题目要求真正的推理,而非对事实的简单回忆。
这 25 道题被翻译成 43 种语言的官方人工翻译,并在此基础上加入了机器翻译。所有语言与翻译类型的组合总共得到 2,150 个数据点。这里「紧凑型」基准的称谓名副其实:数据集刻意保持小巧,却经过精心构造,以便恰好衡量推理能力。
模型在所有语言上的推理能力是否同样出色?
论文的主要发现令人鼓舞:现代 LLM 在所有语言上都能有效推理,准确率与人类受试者相当。这意味着解决高难度、逻辑导向题目的能力并非只属于英语等主导语言,而是同样能迁移到资源较少的语言。
不过,整体图景并非完全一致。作者提醒,某些语言同时表现出更高的推理成本和更低的准确率——换言之,对于个别语言,模型消耗了更多资源,却仍取得较差的结果。这种不对称性仍是有待进一步改进的开放领域。
机器翻译的质量是否足够?
一个特别实用的发现关乎机器翻译。在研究中,机器翻译的表现与人工翻译相当,这表明合成数据(机器生成的)的质量足以支撑大规模评估。
这对社区很重要,因为多语言基准的构建通常依赖于昂贵且缓慢的人工翻译。如果机器翻译能给出可比的结果,就为更快、更便宜地构建覆盖众多语言的基准开辟了道路。
这个基准为何具有现实意义?
mmPISA-bench 填补了评估中的一项空白,因为它聚焦于推理,而不仅是翻译或文本理解,并且同时在大量语言上进行。由此它给出了更清晰的图景:模型的高级能力究竟是真正全球可用,还是集中在少数几种语言之中。
论文的结论——模型在各地都能有效推理,但成本和准确率上仍存差异——也为开发团队提供了具体指引。为目前落后的语言优化推理成本,可能是迈向真正平等的多语言推理的下一步。
值得强调的还有论文在方法论上的启示。通过表明仅由 25 道精心挑选、铺展到 43 种语言的题目所组成的紧凑集合就能给出有意义的洞见,mmPISA-bench 提示我们:一个高质量的基准并不一定要规模庞大才有用。依托公认的 OECD PISA 来源进一步增强了题目的可信度,因为它们本就是为衡量人类的真实推理而设计的。
常见问题
- 什么是 mmPISA-bench?
- mmPISA-bench 是一个源自 OECD PISA 测试的紧凑型多语言推理(reasoning)基准。它由 25 道需要推理的多项选择题组成,被翻译成 43 种语言。除官方人工翻译外,它还包含机器翻译,从而总共得到 2,150 个数据点。
- 模型在所有语言上的推理能力是否同样出色?
- 根据结果,现代语言模型在所有语言上都能有效推理,准确率与人类受试者相当。不过,某些语言同时表现出更高的推理(inference)成本和更低的准确率,因此语言之间的差异并未完全消失。
- 机器翻译对此类评估是否足够好?
- 是的。在 mmPISA-bench 研究中,机器翻译的表现与人工翻译相当,这表明合成(机器翻译)数据的质量足以支撑大规模评估。这使得多语言基准的构建更加容易,因为它不再完全依赖昂贵的人工翻译。