GitHub veröffentlicht Mehrsprachigkeits-Dataset

GitHub hat den Multilingual Repositories Dataset mit mehr als 80 Millionen Klassifikationszeilen aus 40 Millionen Repositories unter der vollständig offenen CC0-1.0-Lizenz veröffentlicht. Für jedes Repository erfasst der Datensatz drei Textquellen — README, meistkommentiertes Issue und meistkommentierter Pull Request — mit Spracherkennung durch drei Tools: fastText, gcld3 und lingua-py. Portugiesisch führt bei nicht-englischen README-Dateien, Koreanisch ist in Issue-Diskussionen am häufigsten vertreten.

GitHub hat den Multilingual Repositories Dataset veröffentlicht, einen offenen Datensatz für Forschende und Entwicklungsteams, die mehrsprachige KI-Systeme entwickeln.

Was enthält der Datensatz?

Der Datensatz umfasst mehr als 80 Millionen Klassifikationszeilen aus 40+ Millionen Repositories und wurde unter der CC0-1.0-Lizenz veröffentlicht, die den Inhalt gemeinfrei stellt. Für jedes Repository erfasst der Datensatz drei Textquellen: die README-Datei, das meistkommentierte Issue und den meistkommentierten Pull Request. Zusätzlich enthält er Metadaten wie Erstellungsdatum, Anzahl der Sterne, Forks, primäre Programmiersprache und SPDX-Lizenz-Tag.

Wie erkennt GitHub die Sprache eines Repositories?

Die Spracherkennung erfolgt durch drei unabhängige Tools — fastText, gcld3 und lingua-py — wobei jedes einen eigenen Konfidenzwert über dem Schwellenwert 0,5 liefert. Die Nutzung dreier Tools statt eines reduziert Klassifikationsfehler und ermöglicht es Forschenden, Beispiele nach dem Übereinstimmungsgrad der Detektoren zu filtern.

Welche Sprachen stechen in den Daten hervor?

Laut GitHub führt Portugiesisch bei nicht-englischen README-Dateien mit mehr als 3 Millionen Repositories, während Koreanisch die am häufigsten vertretene nicht-englische Sprache in Issue-Diskussionen ist. Diese Diskrepanz zeigt, dass sprachliche Vielfalt davon abhängt, ob man Dokumentation oder Community-Gespräche betrachtet.

Wozu dient der Datensatz?

GitHub nennt mehrere Anwendungsfälle: den Aufbau mehrsprachiger Evaluierungssets für KI-Tools, bessere Repräsentation europäischer Sprachen im Open-Source-Ökosystem sowie Forschung in der natürlichen Sprachverarbeitung. Die offene CC0-Lizenz beseitigt rechtliche Hürden für die Nutzung der Daten beim Training und der Evaluierung von Modellen.

Häufig gestellte Fragen

Was enthält der GitHub Multilingual Repositories Dataset?

80+ Millionen Klassifikationszeilen aus 40+ Millionen Repositories, mit README, meistkommentiertem Issue und PR pro Repository.

Unter welcher Lizenz steht der Datensatz?

Unter der CC0-1.0-Lizenz, die den Inhalt gemeinfrei und für jeden Zweck frei nutzbar macht.

Wie wird die Sprache erkannt?

Durch drei unabhängige Tools — fastText, gcld3 und lingua-py — jeweils mit einem Konfidenzwert über dem Schwellenwert 0,5.

GitHub: Offener Multilingual Repositories Dataset mit 80 Millionen Zeilen und 40 Millionen Repositories

Was enthält der Datensatz?

Wie erkennt GitHub die Sprache eines Repositories?

Welche Sprachen stechen in den Daten hervor?

Wozu dient der Datensatz?

Häufig gestellte Fragen

Quellen

Verwandte Nachrichten