arXiv:2606.20517:Multi-LCB将LiveCodeBench扩展至12种编程语言,揭示24个模型的Python过拟合
Multi-LCB是arXiv:2606.20517论文描述的LiveCodeBench基准测试扩展项目,已被ICLR 2026录用,将评测范围从Python扩展到12种编程语言。通过测试24个大型语言模型,作者发现了显著的Python过拟合现象和语言特异性数据污染,直接揭示了当前模型在多语言代码生成方面的局限。
本文由人工智能基于一手来源生成。
新论文 arXiv:2606.20517 提出了 Multi-LCB,即将热门基准测试 LiveCodeBench 从 Python 扩展到 12种编程语言的项目。LiveCodeBench 是衡量大型语言模型基于任务编写正确代码能力的测试,但此前对 Python 的专注使得模型是否真正理解其他语言这一问题悬而未决。该论文已被机器学习顶级会议 ICLR 2026 录用。
发现了什么
通过测试 24个大型语言模型,作者发现了两个问题。第一是显著的Python过拟合——模型在Python上的表现明显优于其他语言,表明它们适应了训练数据的分布,而非对编程的普遍理解。第二是语言特异性数据污染,部分测试任务可能在训练期间已经见过。
语言间差异为何重要
数据污染意味着基准测试结果被夸大,因为模型「记忆」了解决方案而非推导出来。与隐藏这种差异的单语言测试不同,Multi-LCB 通过比较12种语言的性能将其暴露出来。实际后果是:仅通过Python衡量的模型评分高估了其在Rust、Go或Kotlin等语言中实际的代码生成能力。
对开发工具的启示
这一发现对依赖Python生态系统之外AI助手的开发团队具有重要意义。Multi-LCB提供了更公平的多语言度量标准,并作为开放资源供未来评估使用,为模型制造商提供了明确信号,指示需要在代表性较低的语言上改进训练。
常见问题
- 什么是Multi-LCB?
- Multi-LCB是将LiveCodeBench基准测试从Python扩展到12种编程语言的项目,旨在衡量大型语言模型的多语言代码生成能力。
- 测试了多少个模型?
- 作者测试了24个大型语言模型,发现了显著的Python过拟合现象和语言特异性数据污染。
- 论文发表在哪里?
- arXiv:2606.20517论文已被ICLR 2026录用。