GitHubが多言語リポジトリデータセットを公開

GitHubは、4000万以上のリポジトリにわたる8000万以上の分類行を含む多言語リポジトリデータセットを、完全なオープンCC0-1.0ライセンスで公開しました。各リポジトリについてREADME、最もコメントの多いissue、最もコメントの多いpull requestの3つのテキストソースを記録し、fastText、gcld3、lingua-pyの3つのツールで言語検出を行います。非英語READMEではポルトガル語がトップで、issueの議論では韓国語が最も目立ちます。

GitHubは多言語リポジトリデータセットを公開しました。多言語AIシステムを構築する研究者や開発チームを対象としたオープンデータセットです。

データセットには何が含まれていますか？

データセットは4000万以上のリポジトリにわたる8000万以上の分類行を含み、CC0-1.0ライセンスで公開されています。これはコンテンツをパブリックドメインに置き、使用制限を一切設けないものです。各リポジトリについて、データセットは3つのテキストソースを記録します：READMEファイル、最もコメントの多いissue、最もコメントの多いpull request。さらに作成日、スター数、フォーク数、主要プログラミング言語、SPDXライセンス識別子などのメタデータも含まれています。

GitHubはリポジトリの言語をどのように検出しますか？

言語検出は3つの独立ツール——fastText、gcld3、lingua-py——で行われ、それぞれが信頼度スコア0.5以上を提供します。単一ツールではなく3つのツールを使用することで分類エラーが減り、研究者は検出器間の一致度に基づいてサンプルをフィルタリングできます。

データで際立つ言語は？

GitHubによると、ポルトガル語が非英語READMEで300万以上のリポジトリでトップに立ち、韓国語はissueの議論で最も目立つ非英語言語となっています。このギャップは、ドキュメントを見るかコミュニティの会話を見るかによって言語の多様性が異なることを示しています。

データセットの用途は？

GitHubはいくつかの用途を挙げています：AIツール向けの多言語評価セットの構築、オープンソースエコシステムにおける欧州言語の代表性向上、そして自然言語処理の研究です。オープンなCC0ライセンスにより、モデルのトレーニングと評価でデータを使用する法的障壁がなくなります。

よくある質問

GitHub多言語リポジトリデータセットには何が含まれていますか？

4000万以上のリポジトリにわたる8000万以上の分類行で、各リポジトリにREADME、最もコメントの多いissueとPRが含まれます。

データセットのライセンスは？

CC0-1.0ライセンスで、パブリックドメインとして自由に使用できます。

言語はどのように検出されますか？

3つの独立ツール——fastText、gcld3、lingua-py——でそれぞれ信頼度0.5以上で検出されます。

GitHub：8000万行・4000万リポジトリのオープンな多言語リポジトリデータセットを公開

データセットには何が含まれていますか？

GitHubはリポジトリの言語をどのように検出しますか？

データで際立つ言語は？

データセットの用途は？

よくある質問

出典

関連ニュース