QIMMA是由阿联酋TII开发的阿拉伯语LLM排行榜，包含七个领域超过5.2万个样本，并对基准题目进行严格的预评估验证。

为何需要新的阿拉伯语基准？

现有阿拉伯语基准存在系统性问题，包括错误答案、编码损坏的文本、语法错误和文化不符等问题，QIMMA的验证机制能明确识别并消除这些问题。

QIMMA阿拉伯语LLM排行榜：质量优先

阿联酋技术创新研究院（TII）于2026年4月21日发布了QIMMA（قِمّة，阿拉伯语意为「顶峰」或「峰会」），这是针对阿拉伯语大型语言模型（LLM）的新公共排行榜。这是第一个采用质量优先方法的排行榜：所有基准题目在对模型进行评估之前都经过严格验证。这一方法论的转变回应了阿拉伯语自然语言处理（NLP）领域长期存在的问题——模型此前一直在充满错误的数据集上接受评分。

为何现在需要新的阿拉伯语基准？

阿拉伯语有约4亿使用者，但在LLM生态系统中相对英语而言一直处于系统性不足的状态。问题不仅在于数量——现有阿拉伯语基准已暴露出严重的系统性问题。QIMMA团队分析了14个原始基准，发现了较高比例的问题样本：ArabicMMLU有436个问题样本（3.1%），MizanQA有2.3%，其他基准也显示出类似比例。

错误包括不正确或错误标注的「正确」答案、因编码问题导致的文本损坏或不可读、拼写错误、刻板印象和文化不符。这意味着模型几十年来因猜中错误答案而获得奖励，因给出正确答案而受到惩罚。QIMMA试图从源头打破这一循环。

涵盖哪些领域，验证机制如何运作？

QIMMA覆盖七个领域，包含109个子集和超过5.2万个样本，其中99%为原生阿拉伯语。这些领域经过精心选择，兼顾通用性和文化特定性：文化主题（AraDiCE-Culture、ArabCulture、PalmX）、STEM（ArabicMMLU、GAT）、法律（ArabLegalQA、MizanQA）、医学（MedArabiQ、MedAraBench）、安全（AraTrust）、诗歌与文学（FannOrFlop）以及编程（3LM HumanEval+和MBPP+）。

验证分两个阶段进行。第一阶段，两个独立的大型模型——Qwen3-235B和DeepSeek-V3-671B——根据涵盖答案质量、格式、文化敏感性和与「黄金答案」一致性的10分评分标准对每个样本打分。低于7分的样本被删除或进入第二阶段。第二阶段，具有文化和方言专业知识的阿拉伯语母语者手动审查被标记的案例，这对于诗歌等自动评分存在明显局限性的领域至关重要。

谁可以提交模型，结果显示什么？

排行榜完全开放——开发者可通过GitHub仓库和HuggingFace Spaces界面提交自己的模型，整个框架使用LightEval确保可重复性。首次发布榜首是Qwen3.5-397B（平均68.06分），而阿联酋的Jais-2-70B-Chat（来自InceptionAI）以65.81分位居第三。一个有趣发现是，模型大小不保证性能：前10名模型的参数量从320亿到3970亿不等，中等规模模型往往超越更大的模型。

QIMMA契合阿联酋AI战略的更广泛背景，后者将投资于原生阿拉伯语AI基础设施（Jais、Falcon）视为地缘政治和文化优先事项。对全球AI社区而言，这是重要的一步：它表明多语言基准可以——也必须——具有比单纯追求数量更高的质量标准，而质量优先的方法论可以成为其他长期被忽视语言的标准。

QIMMA：新排行榜在评估阿拉伯语LLM时将质量置于数量之前

为何现在需要新的阿拉伯语基准？

涵盖哪些领域，验证机制如何运作？

谁可以提交模型，结果显示什么？

来源

相关新闻