🟡 📦 开源 发布于: · 1 分钟阅读 ·

GitHub:开放多语言代码库数据集——8000万行记录、4000万个仓库

编辑插图:来自开放代码仓库的多语言数据集

GitHub发布了多语言代码库数据集,包含超过4000万个仓库的8000万行以上分类记录,采用完全开放的CC0-1.0许可证。数据集为每个仓库记录三个文本来源——README、评论最多的issue和评论最多的pull request——并通过fastText、gcld3和lingua-py三种工具进行语言检测。在非英语README文件中葡萄牙语排名第一,韩语在issue讨论中最为突出。

🤖

本文由人工智能基于一手来源生成。

GitHub发布了多语言代码库数据集,这是一个面向构建多语言AI系统的研究人员和开发团队的开放数据集。

数据集包含什么?

数据集涵盖超过4000万个仓库8000万行以上分类记录,以CC0-1.0许可证发布,将内容置于公共领域,无任何使用限制。对于每个仓库,数据集记录三个文本来源:README文件、评论最多的issue和评论最多的pull request。此外还包含元数据,如创建日期、星标数、fork数、主要编程语言和SPDX许可证标识符。

GitHub如何检测仓库语言?

语言检测通过三种独立工具进行——fastTextgcld3lingua-py——每种工具的置信度评分均高于阈值0.5。使用三种工具而非单一工具可减少分类错误,并使研究人员能够根据检测器之间的一致性程度筛选样本。

哪些语言在数据中突出?

根据GitHub的数据,葡萄牙语在非英语README文件中排名第一,拥有超过300万个仓库,而韩语是issue讨论中最突出的非英语语言。这种差异表明,语言多样性因查看文档还是社区对话而有所不同。

数据集的用途是什么?

GitHub列举了多种用途:构建AI工具的多语言评估集、提升欧洲语言在开源生态系统中的代表性,以及自然语言处理研究。开放的CC0许可证消除了在模型训练和评估中使用数据的法律障碍。

常见问题

GitHub多语言代码库数据集包含什么?
超过4000万个仓库的8000万行以上分类记录,每个仓库包含README、评论最多的issue和PR。
数据集采用什么许可证?
CC0-1.0许可证,即公共领域,可自由用于任何目的。
如何检测语言?
通过三种独立工具——fastText、gcld3和lingua-py——每种工具置信度阈值均高于0.5。