QIMMA란 무엇입니까?

QIMMA는 UAE의 TII가 개발한 아랍어 LLM 리더보드로, 7개 도메인의 5만 2000개 이상의 샘플을 포함하며 벤치마크 항목에 대한 엄격한 사전 평가 검증을 실시합니다.

새로운 아랍어 벤치마크가 왜 필요합니까?

기존 아랍어 벤치마크는 잘못된 답변, 손상된 텍스트, 문법 오류, 문화적 불일치 등 시스템적 문제를 안고 있으며, QIMMA의 검증을 통해 명시적으로 식별되고 제거됩니다.

QIMMA 아랍어 LLM 리더보드: 품질 우선

아랍에미리트의 Technology Innovation Institute(TII)는 2026년 4월 21일 QIMMA(قِمّة, 아랍어로 「정상」 또는 「서밋」을 의미)를 발표했습니다. 이는 아랍어 대형 언어 모델(LLM)을 위한 새로운 공개 리더보드입니다. 품질 우선 접근법을 적용한 첫 번째 리더보드입니다. 모든 벤치마크 항목은 모델을 평가하기 전에 엄격한 검증을 거칩니다. 이러한 방법론적 전환은 오류로 가득한 데이터셋에서 모델이 채점되어 온 아랍어 자연어 처리(NLP)의 오랜 문제를 해결합니다.

왜 지금 새로운 아랍어 벤치마크가 필요합니까?

아랍어는 약 4억 명이 사용하지만 LLM 생태계에서 영어에 비해 시스템적으로 과소 대표되어 있습니다. 문제는 양만이 아닙니다——기존 아랍어 벤치마크는 심각한 시스템적 문제를 보여왔습니다. QIMMA 팀은 14개의 원본 벤치마크를 분석하여 높은 비율의 문제 샘플을 발견했습니다. ArabicMMLU에는 436개의 문제 항목(3.1%)이 있었고, MizanQA는 2.3%를 보였으며, 다른 벤치마크도 유사한 비율을 나타냈습니다.

오류에는 부정확하거나 잘못 레이블된 「정답」, 인코딩 문제로 인한 손상 또는 판독 불가능한 텍스트, 철자 오류, 고정관념, 문화적 불일치가 포함되었습니다. 실제로 모델이 수십 년 동안 잘못된 답을 추측하는 것으로 보상을 받고 올바른 답을 주는 것으로 처벌받아 왔음을 의미합니다. QIMMA는 소스 수준에서 그 악순환을 끊으려 합니다.

어떤 도메인을 커버하며 검증은 어떻게 작동합니까?

QIMMA는 7개 도메인, 109개의 하위 집합, 5만 2000개 이상의 샘플을 커버하며, 그 중 99%가 원어민 아랍어입니다. 도메인은 보편적인 것과 문화 특화적인 것을 모두 커버하도록 신중하게 선택되었습니다. 문화 주제(AraDiCE-Culture, ArabCulture, PalmX), STEM(ArabicMMLU, GAT), 법률(ArabLegalQA, MizanQA), 의학(MedArabiQ, MedAraBench), 안전(AraTrust), 시와 문학(FannOrFlop), 프로그래밍(3LM HumanEval+와 MBPP+).

검증은 2단계로 진행됩니다. 1단계에서는 두 개의 독립된 대형 모델——Qwen3-235B와 DeepSeek-V3-671B——이 답변 품질, 형식, 문화적 감수성, 「정답」과의 일치를 다루는 10점 채점 기준에 따라 각 샘플을 평가합니다. 7점 미만의 항목은 삭제되거나 2단계로 보내집니다. 2단계에서는 문화적·방언적 전문성을 가진 아랍어 원어민 화자가 표시된 사례를 수동으로 검토합니다. 이는 자동 평가에 명확한 한계가 있는 시와 같은 도메인에서 특히 중요합니다.

누가 모델을 제출할 수 있으며 결과는 무엇을 보여줍니까?

리더보드는 완전히 개방되어 있습니다——개발자는 GitHub 저장소와 HuggingFace Spaces 인터페이스를 통해 자체 모델을 제출할 수 있으며, 전체 프레임워크는 재현성을 위해 LightEval을 사용합니다. 첫 번째 공개에서 상위는 Qwen3.5-397B(평균 68.06점)이며, UAE의 Jais-2-70B-Chat(InceptionAI 제작)이 65.81점으로 3위를 유지합니다. 흥미로운 발견은 모델 크기가 성능을 보장하지 않는다는 것입니다. 상위 10개 모델의 파라미터 수는 320억에서 3970억까지 다양하며, 중간 규모 모델이 종종 더 큰 모델을 능가합니다.

QIMMA는 네이티브 아랍어 AI 인프라(Jais, Falcon)에 대한 투자를 지정학적·문화적 우선 순위로 삼는 UAE의 AI 전략의 더 광범위한 맥락에 맞아 떨어집니다. 글로벌 AI 커뮤니티에게 이것은 중요한 단계입니다. 다언어 벤치마크가 단순한 양 이상의 높은 품질 기준을 가질 수 있고——또 가져야 한다——는 것을 보여주며, 품질 우선 방법론이 오랫동안 소외되어 온 다른 언어들의 표준이 될 수 있음을 보여줍니다.

QIMMA: 새로운 리더보드, 아랍어 LLM 평가에서 수량보다 품질 우선

왜 지금 새로운 아랍어 벤치마크가 필요합니까?

어떤 도메인을 커버하며 검증은 어떻게 작동합니까?

누가 모델을 제출할 수 있으며 결과는 무엇을 보여줍니까?

출처

관련 뉴스