🟡 📦 开源 发布于: · 1 分钟阅读 ·

arXiv:2606.20517:Multi-LCB将LiveCodeBench扩展至12种编程语言,揭示24个模型的Python过拟合

arXiv:2606.20517 ↗

编辑插图:12个编程语言图标围绕中央性能测量仪

Multi-LCB是arXiv:2606.20517论文描述的LiveCodeBench基准测试扩展项目,已被ICLR 2026录用,将评测范围从Python扩展到12种编程语言。通过测试24个大型语言模型,作者发现了显著的Python过拟合现象和语言特异性数据污染,直接揭示了当前模型在多语言代码生成方面的局限。

🤖

本文由人工智能基于一手来源生成。

新论文 arXiv:2606.20517 提出了 Multi-LCB,即将热门基准测试 LiveCodeBench 从 Python 扩展到 12种编程语言的项目。LiveCodeBench 是衡量大型语言模型基于任务编写正确代码能力的测试,但此前对 Python 的专注使得模型是否真正理解其他语言这一问题悬而未决。该论文已被机器学习顶级会议 ICLR 2026 录用。

发现了什么

通过测试 24个大型语言模型,作者发现了两个问题。第一是显著的Python过拟合——模型在Python上的表现明显优于其他语言,表明它们适应了训练数据的分布,而非对编程的普遍理解。第二是语言特异性数据污染,部分测试任务可能在训练期间已经见过。

语言间差异为何重要

数据污染意味着基准测试结果被夸大,因为模型「记忆」了解决方案而非推导出来。与隐藏这种差异的单语言测试不同,Multi-LCB 通过比较12种语言的性能将其暴露出来。实际后果是:仅通过Python衡量的模型评分高估了其在Rust、Go或Kotlin等语言中实际的代码生成能力。

对开发工具的启示

这一发现对依赖Python生态系统之外AI助手的开发团队具有重要意义。Multi-LCB提供了更公平的多语言度量标准,并作为开放资源供未来评估使用,为模型制造商提供了明确信号,指示需要在代表性较低的语言上改进训练。

常见问题

什么是Multi-LCB?
Multi-LCB是将LiveCodeBench基准测试从Python扩展到12种编程语言的项目,旨在衡量大型语言模型的多语言代码生成能力。
测试了多少个模型?
作者测试了24个大型语言模型,发现了显著的Python过拟合现象和语言特异性数据污染。
论文发表在哪里?
arXiv:2606.20517论文已被ICLR 2026录用。