Multi-LCB：LiveCodeBench扩展12语言，测试24模型

Multi-LCB是arXiv:2606.20517论文描述的LiveCodeBench基准测试扩展项目，已被ICLR 2026录用，将评测范围从Python扩展到12种编程语言。通过测试24个大型语言模型，作者发现了显著的Python过拟合现象和语言特异性数据污染，直接揭示了当前模型在多语言代码生成方面的局限。

新论文 arXiv:2606.20517 提出了 Multi-LCB，即将热门基准测试 LiveCodeBench 从 Python 扩展到 12种编程语言的项目。LiveCodeBench 是衡量大型语言模型基于任务编写正确代码能力的测试，但此前对 Python 的专注使得模型是否真正理解其他语言这一问题悬而未决。该论文已被机器学习顶级会议 ICLR 2026 录用。

发现了什么

通过测试 24个大型语言模型，作者发现了两个问题。第一是显著的Python过拟合——模型在Python上的表现明显优于其他语言，表明它们适应了训练数据的分布，而非对编程的普遍理解。第二是语言特异性数据污染，部分测试任务可能在训练期间已经见过。

语言间差异为何重要

数据污染意味着基准测试结果被夸大，因为模型「记忆」了解决方案而非推导出来。与隐藏这种差异的单语言测试不同，Multi-LCB 通过比较12种语言的性能将其暴露出来。实际后果是：仅通过Python衡量的模型评分高估了其在Rust、Go或Kotlin等语言中实际的代码生成能力。

对开发工具的启示

这一发现对依赖Python生态系统之外AI助手的开发团队具有重要意义。Multi-LCB提供了更公平的多语言度量标准，并作为开放资源供未来评估使用，为模型制造商提供了明确信号，指示需要在代表性较低的语言上改进训练。

常见问题

什么是Multi-LCB？

Multi-LCB是将LiveCodeBench基准测试从Python扩展到12种编程语言的项目，旨在衡量大型语言模型的多语言代码生成能力。

测试了多少个模型？

作者测试了24个大型语言模型，发现了显著的Python过拟合现象和语言特异性数据污染。

论文发表在哪里？

arXiv:2606.20517论文已被ICLR 2026录用。

arXiv:2606.20517：Multi-LCB将LiveCodeBench扩展至12种编程语言，揭示24个模型的Python过拟合

发现了什么

语言间差异为何重要

对开发工具的启示

常见问题

来源

相关新闻