GitHub objavio Multilingual Repositories Dataset

GitHub je objavio Multilingual Repositories Dataset s više od 80 milijuna klasifikacijskih redaka kroz 40+ milijuna repozitorija, pod potpuno otvorenom CC0-1.0 licencom. Za svaki repozitorij dataset bilježi tri tekstualna izvora — README, najkomentiraniji issue i najkomentiraniji pull request — uz detekciju jezika kroz tri alata: fastText, gcld3 i lingua-py. Portugalski vodi među ne-engleskim README datotekama, a korejski je najzastupljeniji u raspravama issue-a.

GitHub je objavio Multilingual Repositories Dataset, otvoreni skup podataka namijenjen istraživačima i razvojnim timovima koji grade višejezične AI sustave.

Što dataset sadrži?

Dataset obuhvaća više od 80 milijuna klasifikacijskih redaka kroz 40+ milijuna repozitorija i objavljen je pod CC0-1.0 licencom, koja sadržaj stavlja u javnu domenu bez ikakvih ograničenja upotrebe. Za svaki repozitorij dataset bilježi tri tekstualna izvora: README datoteku, najkomentiraniji issue i najkomentiraniji pull request. Uz to, sadrži metapodatke poput datuma stvaranja, broja zvjezdica, forkova, primarnog programskog jezika i SPDX oznake licence.

Kako GitHub detektira jezik repozitorija?

Detekcija jezika provodi se kroz tri neovisna alata — fastText, gcld3 i lingua-py — pri čemu svaki daje vlastitu ocjenu pouzdanosti iznad praga 0,5. Korištenje triju alata umjesto jednog smanjuje pogreške klasifikacije i omogućuje istraživačima da filtriraju primjere prema razini slaganja među detektorima.

Koji se jezici ističu u podacima?

Prema GitHubu, portugalski vodi među ne-engleskim README datotekama s više od 3 milijuna repozitorija, dok je korejski najzastupljeniji ne-engleski jezik u raspravama unutar issue-a. Taj raskorak pokazuje da se jezična raznolikost razlikuje ovisno o tome gleda li se dokumentacija ili razgovor zajednice.

Čemu dataset služi?

GitHub navodi nekoliko namjena: izgradnju višejezičnih evaluacijskih skupova za AI alate, bolju zastupljenost europskih jezika u open-source ekosustavu te istraživanje u obradi prirodnog jezika. Otvorena CC0 licenca uklanja pravne prepreke za korištenje podataka u treniranju i evaluaciji modela.

Česta pitanja

Što sadrži GitHub Multilingual Repositories Dataset?

80+ milijuna klasifikacijskih redaka kroz 40+ milijuna repozitorija, s README, najkomentiranijim issue-om i PR-om po repozitoriju.

Pod kojom je licencom dataset?

Pod CC0-1.0 licencom, što znači da je u javnoj domeni i slobodan za svaku upotrebu.

Kako se detektira jezik?

Kroz tri neovisna alata — fastText, gcld3 i lingua-py — svaki s ocjenom pouzdanosti iznad praga 0,5.

GitHub: Otvoreni Multilingual Repositories Dataset s 80 milijuna redaka i 40 milijuna repozitorija

Što dataset sadrži?

Kako GitHub detektira jezik repozitorija?

Koji se jezici ističu u podacima?

Čemu dataset služi?

Česta pitanja

Izvori

Povezane vijesti