🤖 24 AI
🟡 💬 Zajednica utorak, 21. travnja 2026. · 3 min čitanja

QIMMA: novi leaderboard donosi kvalitetu prije kvantitete u evaluaciji arapskih LLM-ova

Editorial illustration: QIMMA: novi leaderboard donosi kvalitetu prije kvantitete u evaluaciji arapskih LLM-ova

Zašto je bitno

QIMMA je novi arapski LLM leaderboard koji je objavio TII iz UAE-a, a donosi više od 52 000 uzoraka u sedam domena uz rigorozan dvostupanjski postupak validacije kvalitete benchmark stavki prije same evaluacije modela.

Technology Innovation Institute (TII) iz Ujedinjenih Arapskih Emirata predstavio je 21. travnja 2026. QIMMA (قِمّة, što na arapskom znači “vrh” ili “summit”), novi javni leaderboard za velike jezične modele (LLM-ove) na arapskom jeziku. Riječ je o prvom leaderboardu koji primjenjuje quality-first pristup: sve benchmark stavke prolaze rigoroznu validaciju prije nego što se na njima uopće evaluiraju modeli. Takav obrat u metodologiji odgovara na dugogodišnji problem arapskog NLP-a (obrada prirodnog jezika), gdje su se modeli ocjenjivali na skupovima punim grešaka.

Zašto je baš sada potreban novi arapski benchmark?

Arapski govori oko 400 milijuna ljudi, ali je u LLM ekosustavu sustavno podzastupljen u odnosu na engleski. Problem nije samo količina — postojeći arapski benchmarkovi pokazali su ozbiljne sustavne probleme. QIMMA-in tim analizirao je 14 izvornih benchmarkova i otkrio visoke stope odbačenih uzoraka: ArabicMMLU je imao 436 problematičnih stavki (3,1%), MizanQA 2,3%, a ostali pokazuju slične postotke.

Greške su uključivale netočne ili pogrešno označene “točne” odgovore, korumpiran ili nečitljiv tekst zbog problema s enkodiranjem, pravopisne pogreške, stereotipe i kulturnu neusklađenost. U praksi to znači da su modeli desetljećima nagrađivani za pogađanje pogrešnih odgovora, a kažnjavani za davanje točnih. QIMMA taj krug pokušava prekinuti na razini izvora.

Koje domene i kako funkcionira validacija?

QIMMA pokriva sedam domena s ukupno 109 podskupova i 52 000+ uzoraka, od kojih je 99% na nativnom arapskom. Domene su pažljivo odabrane da obuhvate i univerzalna i kulturno specifična područja: kulturne teme (AraDiCE-Culture, ArabCulture, PalmX), STEM (ArabicMMLU, GAT), pravo (ArabLegalQA, MizanQA), medicina (MedArabiQ, MedAraBench), sigurnost (AraTrust), poezija i književnost (FannOrFlop) te programiranje (3LM HumanEval+ i MBPP+).

Validacija se odvija u dva stupnja. U prvom stupnju dva neovisna velika modela — Qwen3-235B i DeepSeek-V3-671B — boduju svaki uzorak prema rubrici od 10 bodova koja pokriva kvalitetu odgovora, formatiranje, kulturnu osjetljivost i usklađenost s “gold” odgovorom. Stavke ispod 7 bodova se uklanjaju ili šalju u drugi stupanj. U drugom stupnju nativni arapski govornici s kulturnom i dijalektalnom ekspertizom ručno pregledavaju označene slučajeve, što je ključno za domene poput poezije gdje automatsko ocjenjivanje ima očigledne granice.

Tko može submit-ati modele i što pokazuju rezultati?

Leaderboard je otvoren — razvijači mogu predati vlastite modele putem GitHub repozitorija i HuggingFace Spaces sučelja, a cijeli framework koristi LightEval za reproducibilnost. Na vrhu prve objave nalazi se Qwen3.5-397B (68,06 prosjek), dok emiratski Jais-2-70B-Chat (od InceptionAI) drži treće mjesto s 65,81. Zanimljiv nalaz je da veličina modela ne jamči performanse: među top 10 modela raspon je od 32B do 397B parametara, a srednje veliki modeli često nadmašuju veće.

QIMMA se uklapa u širi kontekst UAE AI strategije koja investira u nativnu arapsku AI infrastrukturu (Jais, Falcon) kao geopolitički i kulturni prioritet. Za globalnu AI zajednicu ovo je važan korak: pokazuje da multilingualni benchmarkovi mogu — i moraju — imati više kvalitetnih kriterija od puke količine, te da quality-first metodologija može postati standard i za druge jezike koji su dosad bili zapostavljeni.

🤖

Ovaj članak generiran je uz pomoć umjetne inteligencije na temelju primarnih izvora.