GitHub, 다국어 저장소 데이터셋 공개

GitHub이 4000만 개 이상의 저장소에 걸쳐 8000만 개 이상의 분류 행을 포함한 다국어 저장소 데이터셋을 완전 개방형 CC0-1.0 라이선스로 공개했습니다. 각 저장소에 대해 README, 댓글이 가장 많은 issue, 댓글이 가장 많은 pull request 등 세 가지 텍스트 소스를 기록하며, fastText, gcld3, lingua-py 세 가지 도구로 언어를 감지합니다. 비영어 README 파일에서는 포르투갈어가 1위, issue 토론에서는 한국어가 가장 두드러집니다.

GitHub이 다국어 저장소 데이터셋을 공개했습니다. 다국어 AI 시스템을 구축하는 연구자와 개발 팀을 위한 오픈 데이터셋입니다.

데이터셋에는 무엇이 포함되어 있습니까?

데이터셋은 4000만 개 이상의 저장소에 걸쳐 8000만 개 이상의 분류 행을 포함하며, 사용에 아무런 제한을 두지 않는 공개 도메인 라이선스인 CC0-1.0으로 공개되었습니다. 각 저장소에 대해 README 파일, 댓글이 가장 많은 issue, 댓글이 가장 많은 pull request 등 세 가지 텍스트 소스를 기록합니다. 또한 생성일, 별점 수, fork 수, 주요 프로그래밍 언어, SPDX 라이선스 식별자 등의 메타데이터도 포함됩니다.

GitHub은 저장소 언어를 어떻게 감지합니까?

언어 감지는 세 가지 독립 도구——fastText, gcld3, lingua-py——를 통해 이루어지며, 각 도구는 0.5 임계값 이상의 신뢰도 점수를 제공합니다. 단일 도구 대신 세 가지를 사용하면 분류 오류가 줄어들고 연구자들이 감지기 간 일치도에 따라 샘플을 필터링할 수 있습니다.

데이터에서 두드러지는 언어는?

GitHub에 따르면 포르투갈어가 비영어 README 파일에서 300만 개 이상의 저장소로 1위를 차지하며, 한국어는 issue 토론에서 가장 두드러지는 비영어 언어입니다. 이러한 차이는 문서를 보느냐 커뮤니티 대화를 보느냐에 따라 언어 다양성이 다르게 나타남을 보여줍니다.

데이터셋은 어디에 활용됩니까?

GitHub은 여러 용도를 제시합니다: AI 도구를 위한 다국어 평가 세트 구축, 오픈소스 생태계에서 유럽 언어의 대표성 향상, 자연어 처리 연구 등입니다. 개방형 CC0 라이선스는 모델 훈련 및 평가에 데이터를 활용하는 법적 장벽을 제거합니다.

자주 묻는 질문

GitHub 다국어 저장소 데이터셋에는 무엇이 포함됩니까?

4000만 개 이상의 저장소에 걸친 8000만 행 이상의 분류 기록으로, 각 저장소에 README, 댓글이 가장 많은 issue와 PR이 포함됩니다.

데이터셋의 라이선스는?

CC0-1.0 라이선스로 공개 도메인에 해당하며 어떤 용도로도 자유롭게 사용할 수 있습니다.

언어는 어떻게 감지됩니까?

세 가지 독립 도구——fastText, gcld3, lingua-py——가 각각 0.5 이상의 신뢰도 점수로 감지합니다.

GitHub：8000만 행·4000만 저장소 오픈 다국어 저장소 데이터셋 공개

데이터셋에는 무엇이 포함되어 있습니까?

GitHub은 저장소 언어를 어떻게 감지합니까?

데이터에서 두드러지는 언어는?

데이터셋은 어디에 활용됩니까?

자주 묻는 질문

출처

관련 뉴스