AIニュース最前線
最新ニュースAI日報Hacker日報週報動画AIツールトレンド企業

AIニュース最前線

世界中のAI最新情報を日本語で毎時更新

最新ニュース日報トレンド企業プレミアムRSS
© 2026 ainew.jp特定商取引法に基づく表記
ニュース一覧元記事を開く
Hugging Face Blog·2026年4月21日 19:09·約12分で読める

QIMMA:品質重視のアラビア語LLMリーダーボード

#LLM#アラビア語NLP#ベンチマーク/リーダーボード#Hugging Face#多言語AI
TL;DR

開発チームがアラビア語LLMの性能を正確性と信頼性重視で評価するリーダーボード「QIMMA」を公開し、多言語AI評価の品質基準を示した。

AI深層分析2026年4月21日 20:28
3
注目/ 5段階
深度40%
3
関連度30%
4
実用性20%
3
革新性10%
4

キーポイント

1

QIMMAリーダーボードの公開

アラビア語大規模言語モデルの性能を評価するための専用リーダーボードがHugging Face Blogで公開された。

2

品質基準の重視

従来のベンチマークスコアだけでなく、モデルの正確性と信頼性を最優先する評価基準を採用している。

3

アラビア語処理能力の比較

多言語対応モデルの中でも、特にアラビア語の言語特性や処理精度に焦点を当てた比較分析が可能となった。

影響分析・編集コメントを表示

影響分析

アラビア語圏のAI普及に伴い、言語固有の複雑さを正確に評価するQIMMAのような品質重視型リーダーボードは、開発者のモデル選定と改善方向性を明確にする。これにより、単なるスコア競争から実用性・信頼性重視のAI開発へ業界が転換する契機となる可能性がある。

編集コメント

言語固有の評価基準が整備されることは、非英語圏AI開発の重要な一歩である。今後はアラビア語特有の方言や文脈をどう評価指標に組み込むかが、QIMMAの課題となるだろう。

Back to Articles

QIMMAはモデル評価の前にベンチマーク(benchmark)を検証し、報告されるスコアがLLM(Large Language Model)におけるアラビア語の真の実力を反映していることを保証します。

アラビア語LLMの評価を追ってきた方なら、おそらく次のような緊張感に気づいているでしょう。ベンチマークやリーダーボード(leaderboard)の数は急速に拡大していますが、私たちは本当に測定したいものを正確に測れているのでしょうか?

私たちはQIMMA قمّة(アラビア語で「頂上」を意味)を構築し、この問いに体系的に答えました。既存のアラビア語ベンチマークをそのまま集約してモデルを実行するのではなく、評価の実施前に厳格な品質検証パイプライン(quality validation pipeline)を適用しました。その結果は重々しいものでした。広く使用され高く評価されているアラビア語ベンチマークでさえ、評価結果を静かに歪める可能性のある体系的な品質問題を含んでいることが判明しました。

この記事では、QIMMAとは何か、どのように構築されたか、どのような問題が見つかったか、そしてデータをクリーンアップした後のモデルランキングがどうなるかを順を追って解説します。

🔍 問題点:アラビア語NLP(Natural Language Processing)評価の断片化と未検証状態

アラビア語は多様な方言や文化的文脈を持つ4億人以上の人々によって話されていますが、アラビア語NLP評価の状況は依然として断片化しています。この取り組みを推進した主な痛みポイント(pain points)は以下の通りです:

翻訳に伴う問題。多くのアラビア語ベンチマークは英語からの翻訳です。これにより分布のシフト(distributional shifts)が生じます。英語では自然に感じられる質問が、アラビア語では不自然になったり文化的にズレたりし、ベンチマークデータがアラビア語の実際の使用状況を十分に代表できなくなります。

品質検証の欠如。ネイティブアラビア語のベンチマークでさえ、厳格な品質チェックなしに公開されることがよくあります。アノテーション(注釈)の不一致、不正解なゴールドアンサー(gold answers)、エンコーディングエラー(encoding errors)、正解ラベル(ground-truth labels)における文化的バイアスが、確立されたリソースで文書化されています。

再現性のギャップ(reproducibility gaps)。評価スクリプトやサンプルごとの出力結果が公開されることは稀であり、結果の監査や先行研究の発展を困難にしています。

カバレッジの断片化。既存のリーダーボードは孤立したタスクや限られたドメインをカバーしており、モデルの包括的な評価を困難にしています。

既存のプラットフォームに対するQIMMAの位置関係を説明するために:

リーダーボードオープンソースネイティブアラビア語品質検証コード評価公開出力
OALL v1✅混合❌❌✅
OALL v2✅ほぼ❌❌✅
BALSAM部分的50%❌❌❌
AraGen✅100%❌❌❌
SILMA ABL✅100%✅❌✅
ILMAAM部分的100%✅❌❌
HELM Arabic✅混合❌❌✅
⛰ QIMMA✅99%✅✅✅

QIMMAは、オープンソース、主にネイティブアラビア語のコンテンツ、体系的な品質検証、コード評価(code evaluation)、サンプルごとの公開推論出力(per-sample inference outputs)という5つの特性をすべて組み合わせた唯一のプラットフォームです。

⛰ QIMMAの内容は?

QIMMAは、14のソースベンチマークから109のサブセットを統合し、7つのドメインにまたがる52,000件以上のサンプルからなる統一された評価スイート(evaluation suite)を構築しています。

Domain

Benchmarks

Task Types

CulturalAraDiCE-Culture, ArabCulture, PalmXMCQ

STEMA rabicMMLU, GAT, 3LM STEMMCQ

LegalArabLegalQA, MizanQAMCQ, QA

MedicalMedArabiQ, MedAraBenchMCQ, QA

SafetyAraTrustMCQ

Poetry & LiteratureFannOrFlopQA

Coding3LM HumanEval+, 3LM MBPP+Code

この設計において際立つのは以下の点です:

99%がネイティブアラビア語コンテンツです。唯一の例外はコード評価(code evaluation)であり、これは本質的に言語に依存しません。

コード評価を含む初のアラビア語リーダーボードです。QIMMAはHumanEval+およびMBPP+のアラビア語適応版を統合しており、アラビア語の問題文を用いてコーディング能力を評価可能にしています。

ドメインとタスクの多様性。QIMMAは、教育、ガバナンス(統治)、医療、創造的表現、ソフトウェア開発といった実世界の能力領域を評価します。

🔬 The Quality Validation Pipeline

これがQIMMAの方法的な中核です。単一のモデルを実行する前に、すべてのベンチマーク(benchmark)のすべてのサンプルに対して多段階検証パイプライン(multi-stage validation pipeline)を適用しました。

Stage 1: Multi-Model Automated Assessment

すべてのサンプルは、2つの最先端の大規模言語モデル(LLM)によって独立して評価されました:

Qwen3-235B-A22B-Instruct

DeepSeek-V3-671B

アラビア語能力は高いものの学習データ構成が異なる2つのモデルを選択し、単独よりも統合された判断の方がより堅牢になるようにしました。

各モデルは、10点満点のルーブリック(rubric)に基づいてサンプルを採点し、各基準に対してバイナリスコア(0または1)を付与します:

いずれかのモデルが7/10未満のスコアをつけたサンプルは除外されます。両方のモデルが除外に同意したサンプルは直ちにドロップされます。ただし、片方のモデルのみがサンプルをフラグ付けした場合、それはステージ2の人間によるレビュー(human annotation and review)に進みます。

Stage 2: Human Annotation and Review

フラグ付けされたサンプルは、文化的・方言的な習熟度を備えたアラビア語ネイティブスピーカーによってレビューされます。人間の注釈担当者は以下の点について最終判断を下します:

文化的文脈と地域的なばらつき

方言のニュアンス

主観的解釈

自動評価(automated assessment)では見逃されがちな微妙な品質上の問題

文化的に敏感なコンテンツについては、アラブ地域間で「正解」が実際に異なる場合があるため、複数の視点が考慮されます。

⚠️ What We Found: Systematic Quality Problems

このパイプラインは、ベンチマーク全体にわたって繰り返される品質上の問題を明らかにしました。それは孤立したエラーではなく、ベンチマークの当初の構築方法におけるギャップを反映した体系的なパターンです。

By the Numbers

Benchmark

Total Samples

Discarded

Discard Rate

ArabicMMLU

14,163

436

3.1%

MizanQA1,769412.3%

PalmX3,001250.8%

MedAraBench4,960330.7%

FannOrFlop6,984430.6%

ArabCulture3,48270.2%

MedArabiQ49910.2%

GAT13,9861~0.0%

3LM STEM2,6091~0.0%

AraDiCE-Culture18000.0%

ArabLegalQA7900.0%

AraTrust52200.0%

Taxonomy of Issues Found

⚖️ Answer Quality

False or mismatched gold indices, factually wrong answers, missing or raw text answers.

📄 テキストおよびフォーマットの品質(Text & Formatting Quality)

破損または判読不能なテキスト、スペルミスや文法エラー、重複するサンプル。

💬 文化的感受性(Cultural Sensitivity)

多様なコミュニティに対するステレオタイプの強化や画一的な一般化。

🤝 正解回答の準拠性(Gold Answer Compliance)

正解回答と評価プロトコルとの不一致。

💻 コードベンチマーク:異なる品質作業の形態(Code Benchmark: A Different Kind of Quality Work)

コードベンチマークには別の介入が必要でした。サンプルを破棄するのではなく、3LMによるHumanEval+およびMBPP+のアラビア語版における問題文を精査し、タスク識別子、参照ソリューション、テストスイートは完全にそのまま残しました。

修正率は顕著なものでした:

ベンチマーク総プロンプト数修正済み未変更修正率
3LM HumanEval+1641451988%
3LM MBPP+3783087081%

修正は以下の5つのカテゴリに分類されました:

言語的洗練(Linguistic refinement):自然な現代標準アラビア語および一貫した命令形スタイルへの正規化

明確さの向上(Clarity improvements):曖昧な指示や不明確な制約の修正

一貫性の正規化(Consistency normalization):数学用語、句読点、例のフォーマットの一貫化

構造的修正(Structural corrections):壊れた三重引用符文字列、インデントエラー、破損したテキストフラグメントの修正

意味的洗練(Semantic refinements):範囲が包含か除外かの明確化、タスクの意図の保持

⚙️ 評価設定(Evaluation Setup)

評価フレームワーク(Evaluation Framework)

QIMMAは、一貫性、多言語コミュニティでの採用実績、再現性を理由に、LightEval、EvalPlus、FannOrFlopを評価フレームワークとして採用しています。

タスク別指標(Metrics by Task Type)

タスクタイプ指標ベンチマーク
MCQ(複数選択問題)正規化対数尤度精度(Normalized Log-Likelihood Accuracy)AraDiCE-Culture, ArabicMMLU, ArabCulture, PalmX, 3LM STEM, MedArabiQ, GAT, MedAraBench, AraTrust
複数選択MCQ(Multi-select MCQ)正解選択肢の確率質量(Probability Mass on Gold Choices)MizanQA
生成型Q&A(Generative QA)F1 BERTスコア(AraBERT v02)MedArabiQ, ArabLegalQA, FannOrFlop
コード(Code)Pass@k3LM HumanEval+, 3LM MBPP+

プロンプトテンプレート(Prompt Templates)

QIMMAは質問形式ごとにプロンプティングを標準化し、6つのテンプレートタイプを使用します:

MCQ:汎用複数選択問題 · MCQ-C:文脈付き複数選択問題 · MCQ-I:特定指示付き複数選択問題(GAT類推/完成) · QA:汎用自由記述Q&A · QA-C:文脈付きQ&A · QA-F:穴埋め式Q&A

すべてのプロンプトはアラビア語で記述されています。MizanQAおよびArabCultureについては、元の論文からベンチマーク固有のシステムプロンプトを維持しています。

🏆 リーダーボード結果(Leaderboard Results)

ランクモデル平均AraDiCE-CulArabicMMLUArabCulturePALMX3LM STEMAraTrustMizanQAMedArabiQArabLegalQAGATMedAraBenchHumanEval+MBPP+FannOrFlop
🥇 1Qwen/Qwen3.5-397B-A17B-FP868.0682.7877.5461.7583.9188.6790.0473.3647.3054.9455.8947.9767.6876.7244.33
🥈 2Applied-Innovation-Center/Karnak66.2073.3380.9453.4981.4093.1089.0855.9255.7871.5861.0654.1933.5464.5558.91

🥉 3位

inceptionai/Jais-2-70B-Chat

65.81

78.89

81.29

83.24

83.73

87.96

90.23

71.78

52.79

69.60

51.67

50.89

19.51

43.65

56.13

#4位

Qwen/Qwen2.5-72B-Instruct

65.75

77.22

73.78

63.83

77.77

87.55

88.51

63.49

50.06

70.74

55.90

44.19

37.20

72.75

57.51

#5位

Applied-Innovation-Center/AIC-1

65.37

73.33

72.02

77.52

76.11

88.13

90.61

56.36

53.75

68.96

62.11

50.78

28.05

69.58

47.83

#6位

Qwen/Qwen3.5-122B-A10B

64.84

74.44

73.17

37.78

81.46

86.18

86.97

64.01

47.04

55.11

50.90

52.49

65.24

72.43

60.54

#7位

Sakalti/Ultiima-72B

64.49

78.33

72.28

68.79

76.75

83.70

89.08

60.44

44.58

69.12

46.91

42.25

39.02

74.07

57.56

#8位

meta-llama/Llama-3.3-70B-Instruct

63.96

77.22

71.57

78.05

77.95

88.28

85.63

67.44

56.25

64.00

51.13

54.86

27.44

71.16

24.43

#9位

Qwen/Qwen2.5-32B-Instruct

63.26

70.56

68.76

75.80

72.07

81.03

85.82

53.78

48.08

69.27

56.94

36.51

34.15

72.75

93.10

#10位

FreedomIntelligence/AceGPT-v2-32B-Chat

61.14

76.67

70.62

79.79

74.46

84.88

86.97

63.89

49.96

71.46

56.04

47.32

23.78

54.50

15.56

サイズとパフォーマンスの関係

大規模言語モデル(LLM)46モデルからなる全リーダーボード全体を通して、明確ではあるが不完全なサイズとパフォーマンスの相関関係が見られます。ただし、興味深い例外も存在します:

アラビア語専門モデルは、パラメータ数が同等のマルチリンガルモデルを上回ることが多い

インストラクションチューニング済みモデルは、Qwen3を除き、ベースモデルを一貫して上回る

一部の小型アラビア語専門モデル(Fanar-1-9B、ALLaM-7B)は、特定のドメインにおいて遥かに大規模なマルチリンガルモデルを上回る

🌟 QIMMAの独自性

QIMMAの特徴的な性質をまとめます:

特性

詳細

品質最優先の哲学

評価前に検証を実行し、後回しにしない

複数モデルによる検証

異なる学習履歴を持つ2つの大規模言語モデル(LLM) + 該当ケースの人間レビュー

99%のネイティブアラビア語

翻訳アーティファクトをほぼ完全に回避

多領域・多タスク

7ドメイン、3タスクタイプ(多肢選択問題(MCQ)、質問応答(QA)、コード)、109サブセット

コード評価

コード生成を含む初のアラビア語リーダーボード

完全な透明性

集計スコアだけでなく、サンプルごとの推論出力を公開

LightEvalベース

統一され再現可能な評価コードベース

方言への配慮

プロンプトとルーブリックにおいて、標準アラビア語(MSA)と方言の差異を明示的に処理

🔗 リソース

🏆 リーダーボード: QIMMA Leaderboard

💻 コード: GitHub

📄 論文: Are Arabic Benchmarks Reliable? QIMMA's Quality-First Approach to LLM Evaluation

🔖 引用

@misc{alqadi2026arabicbenchmarksreliableqimmas,

title={Are Arabic Benchmarks Reliable? QIMMA's Quality-First Approach to LLM Evaluation},

author={Leen AlQadi and Ahmed Alzubaidi and Mohammed Alyafeai and Hamza Alobeidli and Maitha Alhammadi and Shaikha Alsuwaidi and Omar Alkaabi and Basma El Amel Boussaha and Hakim Hacid},

year={2026},

eprint={2604.03395},

archivePrefix={arXiv},

primaryClass={cs.CL},

url={https://arxiv.org/abs/2604.03395},

}

原文を表示

Back to Articles

QIMMA validates benchmarks before evaluating models, ensuring reported scores reflect genuine Arabic language capability in LLMs.

If you've been tracking Arabic LLM evaluation, you've probably noticed a growing tension: the number of benchmarks and leaderboards is expanding rapidly, but are we actually measuring what we think we're measuring?

We built QIMMA قمّة (Arabic for "summit"), to answer that question systematically. Instead of aggregating existing Arabic benchmarks as-is and running models on them, we applied a rigorous quality validation pipeline before any evaluation took place. What we found was sobering: even widely-used, well-regarded Arabic benchmarks contain systematic quality issues that can quietly corrupt evaluation results.

This post walks through what QIMMA is, how we built it, what problems we found, and what the model rankings look like once you clean things up.

🔍 The Problem: Arabic NLP Evaluation Is Fragmented and Unvalidated

Arabic is spoken by over 400 million people across diverse dialects and cultural contexts, yet the Arabic NLP evaluation landscape remains fragmented. A few key pain points have motivated this work:

Translation issues. Many Arabic benchmarks are translations from English. This introduces distributional shifts. Questions that feel natural in English become awkward or culturally misaligned in Arabic, making benchmark data less representative of how Arabic is naturally used.

Absent quality validation. Even native Arabic benchmarks are often released without rigorous quality checks. Annotation inconsistencies, incorrect gold answers, encoding errors, and cultural bias in ground-truth labels have all been documented in established resources.

Reproducibility gaps. Evaluation scripts and per-sample outputs are rarely released publicly, making it hard to audit results or build on prior work.

Coverage fragmentation. Existing leaderboards cover isolated tasks and narrow domains, making holistic model assessment difficult.

To illustrate where QIMMA sits relative to existing platforms:

Leaderboard

Open Source

Native Arabic

Quality Validation

Code Eval

Public Outputs

OALL v1✅Mixed❌❌✅

OALL v2✅Mostly❌❌✅

BALSAMPartial50%❌❌❌

AraGen✅100%❌❌❌

SILMA ABL✅100%✅❌✅

ILMAAMPartial100%✅❌❌

HELM Arabic✅Mixed❌❌✅

⛰ QIMMA

✅

99%

✅

✅

✅

QIMMA is the only platform combining all five properties: open source, predominantly native Arabic content, systematic quality validation, code evaluation, and public per-sample inference outputs.

⛰ What's in QIMMA?

QIMMA consolidates 109 subsets from 14 source benchmarks into a unified evaluation suite of over 52,000 samples, spanning 7 domains:

Domain

Benchmarks

Task Types

CulturalAraDiCE-Culture, ArabCulture, PalmXMCQ

STEMArabicMMLU, GAT, 3LM STEMMCQ

LegalArabLegalQA, MizanQAMCQ, QA

MedicalMedArabiQ, MedAraBenchMCQ, QA

SafetyAraTrustMCQ

Poetry & LiteratureFannOrFlopQA

Coding3LM HumanEval+, 3LM MBPP+Code

A few things stand out about this design:

99% native Arabic content. The only exception is code evaluation, which is inherently language-agnostic.

First Arabic leaderboard with code evaluation. QIMMA integrates Arabic-adapted versions of HumanEval+ and MBPP+, making it possible to assess coding capability with Arabic-language problem statements.

Diversity in Domains and Tasks. QIMMA evaluates real-world competency areas including education, governance, healthcare, creative expression, and software development.

🔬 The Quality Validation Pipeline

This is the methodological heart of QIMMA. Before running a single model, we applied a multi-stage validation pipeline to every sample in every benchmark.

Stage 1: Multi-Model Automated Assessment

Each sample was independently evaluated by two state-of-the-art LLMs:

Qwen3-235B-A22B-Instruct

DeepSeek-V3-671B

We chose two models with strong Arabic capability but different training data compositions, so that their combined judgment is more robust than either alone.

Each model scores a sample against a 10-point rubric, with binary scores (0 or 1) per criterion:

A sample is eliminated if either model scores it below 7/10. Samples where both models agree on elimination are dropped immediately. However, where only one model flags a sample, it proceeds to human review in Stage 2.

Stage 2: Human Annotation and Review

Flagged samples are reviewed by native Arabic speakers with cultural and dialectal familiarity. Human annotators make final calls on:

Cultural context and regional variation

Dialectal nuance

Subjective interpretation

Subtle quality issues automated assessment may miss

For culturally sensitive content, multiple perspectives are considered, since "correctness" can genuinely vary across Arab regions.

⚠️ What We Found: Systematic Quality Problems

The pipeline revealed recurring quality issues across benchmarks; not isolated errors, but systematic patterns reflecting gaps in how benchmarks were originally constructed.

By the Numbers

Benchmark

Total Samples

Discarded

Discard Rate

ArabicMMLU

14,163

436

3.1%

MizanQA1,769412.3%

PalmX3,001250.8%

MedAraBench4,960330.7%

FannOrFlop6,984430.6%

ArabCulture3,48270.2%

MedArabiQ49910.2%

GAT13,9861~0.0%

3LM STEM2,6091~0.0%

AraDiCE-Culture18000.0%

ArabLegalQA7900.0%

AraTrust52200.0%

Taxonomy of Issues Found

⚖️ Answer Quality

False or mismatched gold indices, factually wrong answers, missing or raw text answers.

📄 Text & Formatting Quality

Corrupt or illegible text, spelling and grammar errors, and duplicate samples.

💬 Cultural Sensitivity

Stereotype reinforcement and monolithic generalizations about diverse communities.

🤝 Gold Answer Compliance

Misalignment of gold answers with evaluation protocols.

💻 Code Benchmark: A Different Kind of Quality Work

Code benchmarks required a different intervention. Rather than discarding samples, we refined the Arabic problem statements in 3LM's Arabic adaptations of HumanEval+ and MBPP+, leaving task identifiers, reference solutions, and test suites completely unchanged.

The modification rates were striking:

Benchmark

Total Prompts

Modified

Unchanged

Modification Rate

3LM HumanEval+1641451988%

3LM MBPP+3783087081%

Modifications fell into five categories:

Linguistic refinement : normalizing toward natural Modern Standard Arabic and consistent imperative style

Clarity improvements : fixing ambiguous instructions and unclear constraints

Consistency normalization : standardizing mathematical terminology, punctuation, and example formatting

Structural corrections : fixing broken triple-quoted strings, indentation errors, corrupted text fragments

Semantic refinements : clarifying whether ranges are inclusive/exclusive, preserving task intent

⚙️ Evaluation Setup

Evaluation Framework

QIMMA uses LightEval, EvalPlus and FannOrFlop as its evaluation framework, chosen for consistency, multilingual community adoption, and reproducibility.

Metrics by Task Type

Task Type

Metric

Benchmarks

MCQNormalized Log-Likelihood AccuracyAraDiCE-Culture, ArabicMMLU, ArabCulture, PalmX, 3LM STEM, MedArabiQ, GAT, MedAraBench, AraTrust

Multi-select MCQProbability Mass on Gold ChoicesMizanQA

Generative QAF1 BERTScore (AraBERT v02)MedArabiQ, ArabLegalQA, FannOrFlop

CodePass@13LM HumanEval+, 3LM MBPP+

Prompt Templates

QIMMA standardizes prompting by question format, with six template types:

MCQ: generic multiple choice · MCQ-C: multiple choice with context passage · MCQ-I: multiple choice with specific instructions (GAT analogy/completion) · QA: generic open-ended QA · QA-C: QA with context · QA-F: fill-in-the-blank QA

All prompts are in Arabic. For MizanQA and ArabCulture, benchmark-specific system prompts from the original papers are preserved.

🏆 Leaderboard Results

Rank

Model

Avg

AraDiCE-Cul

ArabicMMLU

ArabCulture

PALMX

3LM STEM

AraTrust

MizanQA

MedArabiQ

ArabLegalQA

GAT

MedAraBench

HumanEval+

MBPP+

FannOrFlop

🥇 1

Qwen/Qwen3.5-397B-A17B-FP8

68.06

82.78

77.54

61.75

83.91

88.67

90.04

73.36

47.30

54.94

55.89

47.97

67.68

76.72

44.33

🥈 2

Applied-Innovation-Center/Karnak

66.20

73.33

80.94

53.49

81.40

93.10

89.08

55.92

55.78

71.58

61.06

54.19

33.54

64.55

58.91

🥉 3

inceptionai/Jais-2-70B-Chat

65.81

78.89

81.29

83.24

83.73

87.96

90.23

71.78

52.79

69.60

51.67

50.89

19.51

43.65

56.13

#4

Qwen/Qwen2.5-72B-Instruct

65.75

77.22

73.78

63.83

77.77

87.55

88.51

63.49

50.06

70.74

55.90

44.19

37.20

72.75

57.51

#5

Applied-Innovation-Center/AIC-1

65.37

73.33

72.02

77.52

76.11

88.13

90.61

56.36

53.75

68.96

62.11

50.78

28.05

69.58

47.83

#6

Qwen/Qwen3.5-122B-A10B

64.84

74.44

73.17

37.78

81.46

86.18

86.97

64.01

47.04

55.11

50.90

52.49

65.24

72.43

60.54

#7

Sakalti/Ultiima-72B

64.49

78.33

72.28

68.79

76.75

83.70

89.08

60.44

44.58

69.12

46.91

42.25

39.02

74.07

57.56

#8

meta-llama/Llama-3.3-70B-Instruct

63.96

77.22

71.57

78.05

77.95

88.28

85.63

67.44

56.25

64.00

51.13

54.86

27.44

71.16

24.43

#9

Qwen/Qwen2.5-32B-Instruct

63.26

70.56

68.76

75.80

72.07

81.03

85.82

53.78

48.08

69.27

56.94

36.51

34.15

72.75

93.10

#10

FreedomIntelligence/AceGPT-v2-32B-Chat

61.14

76.67

70.62

79.79

74.46

84.88

86.97

63.89

49.96

71.46

56.04

47.32

23.78

54.50

15.56

The Size-Performance Relationship

Across the full leaderboard (46 models), a clear but imperfect size-performance

correlation emerges. However, there are interesting exceptions:

Arabic-specialized models often outperform size-matched multilingual models

Instruction-tuned models consistently outperform their base counterparts except for Qwen3

Some smaller Arabic-specialized models (Fanar-1-9B, ALLaM-7B) outperform much larger multilingual models on specific domains

🌟 What Makes QIMMA Different

To summarize the distinctive properties of QIMMA:

Property

Details

Quality-first philosophyValidation runs before evaluation, not as an afterthought

Multi-model validationTwo LLMs with different training + human review for flagged cases

99% native ArabicAvoids translation artifacts almost entirely

Multi-domain, multi-task7 domains, 3 task types (MCQ, QA, code), 109 subsets

Code evaluationFirst Arabic leaderboard to include code generation

Full transparencyPer-sample inference outputs publicly released, not just aggregate scores

LightEval-basedUnified, reproducible evaluation codebase

Dialectal awarenessExplicit handling of MSA vs. dialectal variation in prompts and rubrics

🔗 Resources

🏆 Leaderboard: QIMMA Leaderboard

💻 Code: GitHub

📄 Paper: Are Arabic Benchmarks Reliable? QIMMA's Quality-First Approach to LLM Evaluation

🔖 Citation

@misc{alqadi2026arabicbenchmarksreliableqimmas,

title={Are Arabic Benchmarks Reliable? QIMMA's Quality-First Approach to LLM Evaluation},

author={Leen AlQadi and Ahmed Alzubaidi and Mohammed Alyafeai and Hamza Alobeidli and Maitha Alhammadi and Shaikha Alsuwaidi and Omar Alkaabi and Basma El Amel Boussaha and Hakim Hacid},

year={2026},

eprint={2604.03395},

archivePrefix={arXiv},

primaryClass={cs.CL},

url={https://arxiv.org/abs/2604.03395},

}

この記事をシェア

関連記事

Sebastian Raschka★42026年6月6日 20:16

LLM 研究論文:2026 年 1 月から 5 月のリスト

Sebastian Raschka が、2026 年上半期(1 月〜5 月)に注目すべき大規模言語モデル関連の研究論文を選定し、一覧として公開した。

Latent Space★42026年6月6日 13:34

[AINews] 今日特に大きな出来事はありませんでした

Latent Space が運営するニュースレター「AINews」が、6月4日から5日にかけてのAI業界動向を12件のRedditスレッドや544件のTwitter投稿から選別して紹介しました。記事ではRL環境ガイドの推奨や、DeepSeek v4 Pro向けの最適化に関するリモートポッドの更新について言及しています。

Latent Space★42026年6月5日 15:44

[AINews] 今日は何も大きな出来事はありませんでした

Anthropic が RSI の兆候を示し、OpenAI の ChatGPT が月間アクティブユーザー数で 10 億人を突破。SpaceX AI は IPO について説明しているが、最も重要なのは AIE WF のチケット確保とイベント参加である。

ニュース一覧に戻る元記事を読む