GitHub: Otvoreni Multilingual Repositories Dataset s 80 milijuna redaka i 40 milijuna repozitorija
GitHub je objavio Multilingual Repositories Dataset s više od 80 milijuna klasifikacijskih redaka kroz 40+ milijuna repozitorija, pod potpuno otvorenom CC0-1.0 licencom. Za svaki repozitorij dataset bilježi tri tekstualna izvora — README, najkomentiraniji issue i najkomentiraniji pull request — uz detekciju jezika kroz tri alata: fastText, gcld3 i lingua-py. Portugalski vodi među ne-engleskim README datotekama, a korejski je najzastupljeniji u raspravama issue-a.
Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.
GitHub je objavio Multilingual Repositories Dataset, otvoreni skup podataka namijenjen istraživačima i razvojnim timovima koji grade višejezične AI sustave.
Što dataset sadrži?
Dataset obuhvaća više od 80 milijuna klasifikacijskih redaka kroz 40+ milijuna repozitorija i objavljen je pod CC0-1.0 licencom, koja sadržaj stavlja u javnu domenu bez ikakvih ograničenja upotrebe. Za svaki repozitorij dataset bilježi tri tekstualna izvora: README datoteku, najkomentiraniji issue i najkomentiraniji pull request. Uz to, sadrži metapodatke poput datuma stvaranja, broja zvjezdica, forkova, primarnog programskog jezika i SPDX oznake licence.
Kako GitHub detektira jezik repozitorija?
Detekcija jezika provodi se kroz tri neovisna alata — fastText, gcld3 i lingua-py — pri čemu svaki daje vlastitu ocjenu pouzdanosti iznad praga 0,5. Korištenje triju alata umjesto jednog smanjuje pogreške klasifikacije i omogućuje istraživačima da filtriraju primjere prema razini slaganja među detektorima.
Koji se jezici ističu u podacima?
Prema GitHubu, portugalski vodi među ne-engleskim README datotekama s više od 3 milijuna repozitorija, dok je korejski najzastupljeniji ne-engleski jezik u raspravama unutar issue-a. Taj raskorak pokazuje da se jezična raznolikost razlikuje ovisno o tome gleda li se dokumentacija ili razgovor zajednice.
Čemu dataset služi?
GitHub navodi nekoliko namjena: izgradnju višejezičnih evaluacijskih skupova za AI alate, bolju zastupljenost europskih jezika u open-source ekosustavu te istraživanje u obradi prirodnog jezika. Otvorena CC0 licenca uklanja pravne prepreke za korištenje podataka u treniranju i evaluaciji modela.
Česta pitanja
- Što sadrži GitHub Multilingual Repositories Dataset?
- 80+ milijuna klasifikacijskih redaka kroz 40+ milijuna repozitorija, s README, najkomentiranijim issue-om i PR-om po repozitoriju.
- Pod kojom je licencom dataset?
- Pod CC0-1.0 licencom, što znači da je u javnoj domeni i slobodan za svaku upotrebu.
- Kako se detektira jezik?
- Kroz tri neovisna alata — fastText, gcld3 i lingua-py — svaki s ocjenom pouzdanosti iznad praga 0,5.
Povezane vijesti
CNCF: Oracleova donacija od 3 milijuna dolara u OCI kreditima ubrzava Arm64 podršku u 12+ projekata
Kedro: verzija 1.2.0 donosi @experimental dekorator i LangGraph agentic starter za GenAI pipeline-e
Stability AI: Stable Audio 3.0 s open-weight modelima i generacijom do 6 minuta