GitHub发布多语言代码库数据集

GitHub发布了多语言代码库数据集，包含超过4000万个仓库的8000万行以上分类记录，采用完全开放的CC0-1.0许可证。数据集为每个仓库记录三个文本来源——README、评论最多的issue和评论最多的pull request——并通过fastText、gcld3和lingua-py三种工具进行语言检测。在非英语README文件中葡萄牙语排名第一，韩语在issue讨论中最为突出。

GitHub发布了多语言代码库数据集，这是一个面向构建多语言AI系统的研究人员和开发团队的开放数据集。

数据集包含什么？

数据集涵盖超过4000万个仓库的8000万行以上分类记录，以CC0-1.0许可证发布，将内容置于公共领域，无任何使用限制。对于每个仓库，数据集记录三个文本来源：README文件、评论最多的issue和评论最多的pull request。此外还包含元数据，如创建日期、星标数、fork数、主要编程语言和SPDX许可证标识符。

GitHub如何检测仓库语言？

语言检测通过三种独立工具进行——fastText、gcld3和lingua-py——每种工具的置信度评分均高于阈值0.5。使用三种工具而非单一工具可减少分类错误，并使研究人员能够根据检测器之间的一致性程度筛选样本。

哪些语言在数据中突出？

根据GitHub的数据，葡萄牙语在非英语README文件中排名第一，拥有超过300万个仓库，而韩语是issue讨论中最突出的非英语语言。这种差异表明，语言多样性因查看文档还是社区对话而有所不同。

数据集的用途是什么？

GitHub列举了多种用途：构建AI工具的多语言评估集、提升欧洲语言在开源生态系统中的代表性，以及自然语言处理研究。开放的CC0许可证消除了在模型训练和评估中使用数据的法律障碍。

常见问题

GitHub多语言代码库数据集包含什么？

超过4000万个仓库的8000万行以上分类记录，每个仓库包含README、评论最多的issue和PR。

数据集采用什么许可证？

CC0-1.0许可证，即公共领域，可自由用于任何目的。

如何检测语言？

通过三种独立工具——fastText、gcld3和lingua-py——每种工具置信度阈值均高于0.5。

GitHub：开放多语言代码库数据集——8000万行记录、4000万个仓库

数据集包含什么？

GitHub如何检测仓库语言？

哪些语言在数据中突出？

数据集的用途是什么？

常见问题

来源

相关新闻