QIMMA ist ein arabisches LLM-Leaderboard, das vom TII aus den VAE erstellt wurde und mehr als 52.000 Stichproben in sieben Domänen mit rigoroser Vorab-Validierung der Benchmark-Einträge enthält.

Warum wird ein neuer arabischer Benchmark benötigt?

Bestehende arabische Benchmarks leiden unter systemischen Problemen wie falschen Antworten, schlecht kodiertem Text, Grammatikfehlern und kulturellen Fehlanpassungen, die die Validierung von QIMMA explizit identifiziert und entfernt.

QIMMA-Leaderboard für arabische LLMs: Qualität vor Quantität

Das Technology Innovation Institute (TII) aus den Vereinigten Arabischen Emiraten hat am 21. April 2026 QIMMA (قِمّة, auf Arabisch „Gipfel” oder „Spitze”) vorgestellt — ein neues öffentliches Leaderboard für große Sprachmodelle (LLMs) auf Arabisch. Dies ist das erste Leaderboard, das einen Quality-First-Ansatz anwendet: Alle Benchmark-Einträge durchlaufen eine rigorose Validierung, bevor Modelle überhaupt auf ihnen evaluiert werden. Diese methodologische Umkehrung adressiert ein seit Langem bestehendes Problem der arabischen Sprachverarbeitung (NLP), bei dem Modelle auf fehlerhaften Datensätzen evaluiert wurden.

Warum wird jetzt ein neuer arabischer Benchmark benötigt?

Arabisch wird von etwa 400 Millionen Menschen gesprochen, ist aber im LLM-Ökosystem im Vergleich zu Englisch systematisch unterrepräsentiert. Das Problem ist nicht nur die Menge — bestehende arabische Benchmarks haben ernsthafte systemische Probleme gezeigt. Das QIMMA-Team analysierte 14 Quell-Benchmarks und fand hohe Raten abgelehnter Stichproben: ArabicMMLU hatte 436 problematische Einträge (3,1 %), MizanQA 2,3 %, und andere zeigten ähnliche Prozentsätze.

Fehler umfassten falsche oder falsch gekennzeichnete „richtige” Antworten, korrumpierten oder unlesbaren Text aufgrund von Kodierungsproblemen, Rechtschreibfehler, Stereotypen und kulturelle Fehlanpassungen. In der Praxis bedeutete dies, dass Modelle jahrelang für das Raten falscher Antworten belohnt und für das Geben richtiger bestraft wurden. QIMMA versucht, diesen Kreislauf an der Quelle zu unterbrechen.

Welche Domänen werden abgedeckt und wie funktioniert die Validierung?

QIMMA deckt sieben Domänen mit insgesamt 109 Teilmengen und 52.000+ Stichproben ab, von denen 99 % in nativem Arabisch sind. Die Domänen sind sorgfältig ausgewählt, um sowohl universelle als auch kulturell spezifische Bereiche abzudecken: Kulturthemen (AraDiCE-Culture, ArabCulture, PalmX), MINT (ArabicMMLU, GAT), Recht (ArabLegalQA, MizanQA), Medizin (MedArabiQ, MedAraBench), Sicherheit (AraTrust), Poesie und Literatur (FannOrFlop) sowie Programmierung (3LM HumanEval+ und MBPP+).

Die Validierung erfolgt in zwei Stufen. In der ersten Stufe bewerten zwei unabhängige große Modelle — Qwen3-235B und DeepSeek-V3-671B — jede Stichprobe nach einer 10-Punkte-Rubrik, die Antwortqualität, Formatierung, kulturelle Sensibilität und Übereinstimmung mit der „Gold”-Antwort abdeckt. Einträge unter 7 Punkten werden entfernt oder in die zweite Stufe weitergeleitet. In der zweiten Stufe überprüfen muttersprachliche arabischsprachige Experten mit kultureller und dialektaler Expertise manuell die markierten Fälle — entscheidend für Domänen wie Poesie, bei denen automatische Bewertung offensichtliche Grenzen hat.

Wer kann Modelle einreichen und was zeigen die Ergebnisse?

Das Leaderboard ist offen — Entwickler können ihre eigenen Modelle über das GitHub-Repository und die HuggingFace-Spaces-Oberfläche einreichen, und das gesamte Framework verwendet LightEval für Reproduzierbarkeit. An der Spitze der ersten Veröffentlichung steht Qwen3.5-397B (68,06 Durchschnitt), während das emiratische Jais-2-70B-Chat (von InceptionAI) mit 65,81 den dritten Platz belegt. Ein interessanter Befund ist, dass Modellgröße keine Leistungsgarantie ist: Unter den Top-10-Modellen reicht die Bandbreite von 32B bis 397B Parametern, und mittelgroße Modelle übertreffen häufig größere.

QIMMA fügt sich in den breiteren Kontext der KI-Strategie der VAE ein, die in native arabische KI-Infrastruktur (Jais, Falcon) als geopolitische und kulturelle Priorität investiert. Für die globale KI-Gemeinschaft ist dies ein wichtiger Schritt: Es zeigt, dass mehrsprachige Benchmarks höhere Qualitätskriterien haben können — und müssen — als bloße Quantität, und dass die Quality-First-Methodik zum Standard für andere Sprachen werden kann, die bisher vernachlässigt wurden.

QIMMA: Neues Leaderboard stellt Qualität vor Quantität bei der Evaluierung arabischer LLMs

Warum wird jetzt ein neuer arabischer Benchmark benötigt?

Welche Domänen werden abgedeckt und wie funktioniert die Validierung?

Wer kann Modelle einreichen und was zeigen die Ergebnisse?

Quellen

Verwandte Nachrichten