コミュニティ評価:ブラックボックス型リーダーボードよりもコミュニティを信頼する理由
AIモデルの評価において、不透明なリーダーボードよりもコミュニティ主導の評価を重視する重要性を主張する記事です。
キーポイント
既存のブラックボックス型ベンチマークリーダーボードへの不信感を背景に、Hugging Faceが分散型・透明性のある評価プラットフォーム「Community Evals」を発表
モデルリポジトリに評価結果を格納し、コミュニティがPRを通じて結果を提出・議論できるGitベースのシステムを構築
ベンチマークの飽和と実世界性能の乖差という業界課題に対し、再現可能な評価と多様な結果の集約による「単一の真実源」の創出を目指す
影響分析・編集コメントを表示
影響分析
この取り組みは、AIモデル評価の民主化と透明性を大幅に前進させる可能性がある。コミュニティ主導の評価エコシステムが確立されれば、ブラックボックス化した従来のリーダーボードに依存しない、実用的なモデル性能の理解が促進される。同時に、評価基準の分散化が混乱を招くリスクもはらんでいる。
編集コメント
「ベンチマークは飽和したが、実用性は不十分」という業界のジレンマに対するHugging Faceらしいオープンな解決策。評価の権威を分散させることで、真に有用なモデル選定が可能になるか注目。
コミュニティ評価:ブラックボックス化されたリーダーボードよりもコミュニティを信頼する時代へ
2026年現在、AIモデルの評価(eval)を巡る状況には大きな課題が存在する。MMLUやGSM8K、HumanEvalといった主要なベンチマークは、モデルのスコアが非常に高く飽和状態に達しており、もはや実用的な性能差を測れなくなっている。実際、ベンチマークで高得点を記録したモデルでも、ウェブブラウジング、本番環境レベルのコード記述、複数段階のタスク処理において、依然として誤った情報を生成(ハルシネーション)するなどの問題がユーザー報告から明らかだ。つまり、ベンチマークの数値と実世界での性能には明白な隔たりがある。
さらに、報告されるベンチマークスコア自体にも問題がある。モデルカード、論文、評価プラットフォームなど、情報源によって結果が異なり、統一された信頼できる情報源が欠如している。これにより、コミュニティは「単一の真実」を見出せずにいる。
この問題を解決するため、Hugging Face Hubは評価報告の在り方を根本から変え、分散型で透明性の高い新たなシステム「コミュニティ評価」を導入する。その核は、評価の報告権限をコミュニティ全体に開放し、結果をオープンに集約することにある。
このシステムは三つの要素から成る。
第一に、ベンチマーク側:データセットリポジトリがベンチマークとして登録可能になり(MMLU-Pro等は既に公開)、モデルから報告された結果を自動的に集約してリーダーボードを表示する。評価仕様は「eval.yaml」で定義され、誰でも再現可能となる。
第二に、モデル側:評価スコアはモデルリポジトリ内の「.eval_results/*.yaml」ファイルに保存され、モデルカードに表示されると同時に、ベンチマークデータセットへとフィードバックされる。モデル作者自身の結果に加え、コミュニティからのプルリクエスト(PR)による結果も集約対象となる(モデル作者はPRをクローズし、結果を非表示にする権限を持つ)。
第三に、コミュニティ側:あらゆるユーザーが、あらゆるモデルの評価結果をPRを通じて提出できる。提出された結果はモデル作者の承認を待たず「コミュニティ(提出)」として表示される。結果の根拠として、論文、モデルカード、サードパーティの評価プラットフォーム、評価ログなどへのリンクを添付可能で、PR上でスコアについて議論できる。GitベースのHub上で変更履歴が全て記録されるため、透明性が保たれる。
この分散型評価システムにより、これまでモデルカードや論文などコミュニティ内に散在していた評価スコアが可視化される。すべてのスコアはHub APIを通じて公開され、集計や、独自の精選リーダーボード・ダッシュボードの構築が容易になる。これにより、コミュニティはベンチマークスコアの実態を集約し、追跡し、理解を深めるための共通基盤を手に入れるのである。要
原文を表示
Community Evals: Because we're done trusting black-box leaderboards over the community Back to Articles Community Evals: Because we're done trusting black-box leaderboards over the community
TL;DR: Benchmark datasets on Hugging Face can now host leaderboards. Models store their own eval scores. Everything links together. The community can submit results via PR. Verified badges prove that the results can be reproduced.
Let's be real about where we are with evals in 2026. MMLU is saturated above 91%. GSM8K hit 94%+. HumanEval is conquered. Yet some models that ace benchmarks still can't reliably browse the web, write production code, or handle multi-step tasks without hallucinating, based on usage reports. There is a clear gap between benchmark scores and real-world performance.
Furthermore, there is another gap within reported benchmark scores. Multiple sources report different results. From Model Cards, to papers, to evaluation platforms, there is no alignment in reported scores. The result is that the community lacks a single source of truth.
Decentralized and transparent evaluation reporting.
We are going to take evaluations on the Hugging Face Hub in a new direction by decentralizing reporting and allowing the entire community to openly report scores for benchmarks. At first, we will start with a shortlist of 4 benchmarks and over time we’ll expand to the most relevant benchmarks.
For Benchmarks: Dataset repos can now register as benchmarks (MMLU-Pro, GPQA, HLE are already live). They automatically aggregate reported results from across the Hub and display leaderboards in the dataset card. The benchmark defines the eval spec via eval.yaml, based on the Inspect AI format, so anyone can reproduce it. The reported results need to align with the task definition.
For Models: Eval scores live in .eval_results/*.yaml in the model repo. They appear on the model card and are fed into benchmark datasets. Both the model author’s results and open pull requests for results will be aggregated. Model authors will be able to close score PR and hide results.
For the Community: Any user can submit evaluation results for any model via a PR. Results get shown as "community", without waiting for model authors to merge or close. The community can link to sources like a paper, Model Card, third-party evaluation platform, or inspect eval logs. The community can discuss scores like any PR. Since the Hub is Git based, there is a history of when evals were added, when changes were made, etc. The sources look like below.
To learn more about evaluation results, check out the docs.
Decentralizing evaluation will expose scores that already exist across the community in sources like model cards and papers. By exposing these scores, the community can build on top of them to aggregate, track, and understand scores across the field. Also, all scores will be exposed via Hub APIs, making it easy to aggregate and build curated leaderboards, dashboards, etc.
Community evals do not replace benchmarks so leaderboards and closed evals with published results are still crucial. However, we believe it's important to contribute to the field with open eval results based on reproducible eval specs.
This won't solve benchmark saturation or close the benchmark-reality gap. Nor will it stop training on test sets. But it makes the game visible by exposing what is evaluated, how, when, and by whom.
Mostly, we hope to make the Hub an active place to build and share reproducible benchmarks. Particularly focusing on new tasks and domains that challenge SOTA models more.
Read the docs: To learn more about evaluation results, check out the docs.
Add eval results: Publish the evals you conducted as YAML files in .eval_results/ on any model repo.
Check out the scores on the benchmark dataset.
Register a new benchmark: Add eval.yaml to your dataset repo and contact us to be included in the shortlist.
The feature is in beta. We're building in the open. Feedback welcome.
Introducing swift-huggingface: The Complete Swift Client for Hugging Face
43 December 5, 2025 open-sourceLLMcommunity 🇵🇭 FilBench - Can LLMs Understand and Generate Filipino?
Great initiative, aggregating multiple signals is the way to go!
Although such a measure has not solved the problems encountered in the current evaluation, at least it is indeed a very good measure in terms of decentralization and mobilizing the power of the community for co-construction.
Will there be the integration with existing huggingface lighteval?
hi \n\n@naufalso\n\t ! Lighteval now suport inspect-ai as a backend, so everything supported by inspect is integrrated in lighteval 🔥
This is such an important initiative for transparency in model evaluation! Building trustworthy evaluation infrastructure requires careful architectural design. For anyone building evaluation systems or ML infrastructure, clear documentation is critical. I've been using InfraSketch (https://www.infrasketch.net/) to doc
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み