Hugging Face モデルページに過去のすべての評価結果を表示
Hugging Face がモデルページに過去の全評価結果を統合表示する機能を追加し、ユーザーによるモデルの性能比較と信頼性検証を大幅に容易にした。
キーポイント
包括的な評価データの可視化
Hugging Face は各モデルページに過去に実施されたあらゆるベンチマークや評価結果を一覧表示する機能を導入した。
モデル選定プロセスの効率化
複数の評価データポイントを横断して閲覧できるため、開発者が最適なモデルを迅速に比較・選定できるようになる。
信頼性と透明性の向上
単一のスコアだけでなく多角的な評価履歴を確認可能となり、モデルの性能や限界に対するユーザーの理解が深まる。
影響分析・編集コメントを表示
影響分析
この機能強化は、膨大な数のオープンソースモデルが存在する現在、開発者が適切なモデルを選定するための重要な障壁を取り除くものである。評価結果の一元化により、AI プロジェクトの開発サイクルが短縮され、より信頼性の高いシステム構築が可能になることで、業界全体の標準的な選定プロセスが変化すると予想される。
編集コメント
モデル選定における「ブラックボックス化」を防ぐための重要な一歩であり、開発者の意思決定をデータ駆動型で支えるインフラとしての役割がさらに強化されました。
- Hugging Face コミュニティ評価(Community Evals)と EvalEval の連携方法
- 仕組みについて
- ここから始める
Every Eval Ever (EEE) と Hugging Face Community Evals は、現在相互運用可能となっています。これにより、評価結果のクロス投稿や解釈が可能になり、オープンモデル、リーダーボード、そして統一された標準化メタデータストアへのリンクが実現されます。
EEE は 2026 年 2 月に 発足しました。これは、EvalEval コーリションのプロジェクトであり、AI の評価結果をファーストパーティおよびサードパーティの評価者がどのように報告するかを改善するための、初の機関横断的な取り組みです。一方、Hugging Face は 2026 年 2 月に Community Evals を立ち上げ、ハブ上でのベンチマークスコアの報告方法を分散化しました。これらを組み合わせることで、ユーザー、研究者、政策決定者が評価やモデルを信頼し、理解し、選択する方法におけるギャップを埋めることができます。
評価結果は、モデルの能力を測定し、モデル同士を比較し、安全性やガバナンスについて推論するための手段ですが、これらは散在しており比較が困難です。これらの結果は論文、リーダーボード、ブログ投稿、ハネスログなど、それぞれ独自の形式で存在しています。同じモデルでも、同じベンチマークにおいて、誰が実行したか、どのように実行したかによって異なるスコアが返されることがあります。例えば、LLaMA 65B の MMLU MMLU でのスコアは、63.7 と 48.8 の両方が報告されています。これらの乖離は、一般的に報告されていない評価設定 に起因することがあります。
EEE は、報告側の課題に対する私たちの解決策です。これは評価結果を記録するための単一の JSON スキーマであり、以下の情報を記録します:
- 誰が実行したか
- どのモデルか
- アクセス方法
- 生成設定
- メトリクスの実際の意味
- [推奨] サンプルごとの出力用のコンパニオン JSONL ファイル。
このスキーマは研究者および政策研究からのフィードバックを基に構築され、あらゆるソースからの結果を受け入れる構造となっています。そのため、ハーンログ、リーダーボードのスクレイピングデータ、論文の数値など、すべての情報が同一の形式に統一されます。GitHub リポジトリ には変換ツール、サンプル、およびコントリビューターガイドが用意されています。公開以来、Hugging Face 上の データストア は、31 の異なる報告形式から収集された評価結果を約 229,000 件、22,000 を超えるモデル、および 2,200 のベンチマークにわたって保有するまでに成長しました。これらの実行をゼロから再現するには数十万ドルの費用がかかるため、一度誰かが生成のために資金を支払ったデータが散逸しないようにすることは、合理的な理由となります。
スキーマの詳細や貢献方法については こちら をご覧ください。
現在は、より優れた統合と帰属表示が実装されています。コントリビューターは現在、EEE 結果を Hugging Face Community Evals に送信できるようになりました。これは、ユーザーの EEE レコードを受け取り、Hugging Face が期待する小規模な YAML ファイルを作成する変換ツールを開発したためです。これにより、手動で同じ結果を二つの形式で管理する必要がなくなります。
これは、既存の EEE コントリビューターだけでなく、評価を報告する人・読む人のすべてにとっての新機能です。自社のモデルについて報告するファーストパーティの評価者も、他者のモデルについて報告するサードパーティの評価者も、どちらもコミュニティ評価(Community Evals)と EEE への提出が可能であり、Hub を閲覧するすべての人が、完全な記録に遡れる結果を得ることができます。
組織の公式 Hugging Face アカウントを通じてデータを提出すると、EvalEval 上で 検証済み のチェックマークが表示されます。これは、数値が直接ソースから提供されたものであることを読者に対するシグナルとして機能します。
この投稿の残りは、コミュニティ評価(Community Evals)とは何か、そしてコンバーターが何を行うのかを解説していきます。
Hugging Face コミュニティ評価と EvalEval の連携について
Hugging Face コミュニティ評価には 2 つの側面があります。
ベンチマークは、eval.yaml を追加して自ら登録するデータセットリポジトリ内に存在します。一度登録されると、そのデータセットページでは、Hub 上でそれに対して報告されたすべてのスコアを集計し、リーダーボードとして表示されます。公式ベンチマーク のリストは時間とともに拡大していきます。
モデルのスコアは、モデルリポジトリ内の .eval_results/*.yaml に格納されています。これらはモデルカードに表示され、対応するベンチマークリーダーボードに反映されます。モデル作者自身の結果と、プルリクエストを通じて誰でも提出した結果が統合され、各スコアには「作者提出」「コミュニティ提出」「独立検証済み」のいずれかを示すバッジが付与されます。適切な YAML ファイルを添付して PR を開くことで、誰でも任意のモデルにスコアを追加できます。また、モデル作者は自身のリポジトリ上で PR を閉じたり、結果を非表示にしたりすることができます。
これらのリーダーボードの一つがどのようなものかを示します:
*コミュニティ評価リーダーボード Humanity's Last Exam (Hub 上)*
ここが EEE とコミュニティ評価が連携する場所です。結果を両方に送信すると、2 つのことが起こります。第一に、スコアは Hugging Face のモデルページに表示され、ベンチマークのリーダーボードに取り込まれます。第二に、生成設定、ハーンバージョン、再現性に関する注釈、およびインスタンスレベルのデータが格納されている完全な EEE レコードへ直接リンクするソースバッジが付与されます。
*EEE データストアからの評価 (MMLU-Pro) がファイルレベルで Hugging Face モデルカードとクロスリンクされたもの (a)。Source EvalEval バッジは完全な JSON レコードにリンクします。(b)*
2 つの宛先は、同じ目標に向かって異なる役割を果たします。 Hugging Face は、結果をモデルを見る人々の目に触れる場所に配置し、元のソースへのリンクを提供します。EEE は、結果を解釈可能にする完全な構造化記録を保持し、その上で Eval Cards を機能させます。両方にデータを送信することで、同じ評価が一度に可視化され、読みやすいものになります。
下のクロス互換性をご覧ください。上記のモデルカードに表示される GPQA スコアは、Eval Cards にもレンダリングされます。これは、EEE の実行データをベンチマークおよびモデルメタデータと組み合わせて、1 つの解釈可能な記録として構成するものです。同じ評価が、異なる表示面を持つ:
仕組みについて
Hugging Face は、モデルリポジトリ内に .eval_results/ 配下に YAML ファイルとして評価スコアを保存します。必須フィールドは、ベンチマークデータセット、タスク、および値だけです。ソースブロックは、EEE へのバックリンクを作成する部分です。
- dataset:
id: openai/gsm8k
task_id: gsm8k
value: 96.8
date: '2024-07-16'
notes: '8-shot CoT'
source:
url: https://huggingface.co/datasets/evaleval/EEE_datastore/blob/main/flat/objects/<xx>/<yy>/<uuid>.json
name: EvalEval
コンバーターは、既存の記録からこの情報を自動入力します。 source_data.hf_repo を dataset.id に、evaluation_name を task_id に、score_details.score を value に、evaluation_timestamp を date に対応付け、その後、データストアオブジェクト URL を per-record の EEE JSON へのソースリンクとして挿入します。現在、公式ベンチマークの 4 つ(MMLU-Pro, GPQA, HLE, GSM8K)を処理可能です。
コンバーターは単にフィールドを変形するだけではありません。 ユーザーが EEE データストアコレクションを指定すると、そのコレクションと参照されるレコードをダウンロードし、オブジェクトハッシュを確認して、サポート対象のベンチマークに対応するスコアを検出します。実際に書き込みを行う前に既存データを監査します:モデルのメインブランチおよびオープンな PR 内のすべての .eval_results YAML ファイルを読み取り、ファイル名ではなくデータセットとタスク単位で比較します。すでにスコアが存在する場合は already_present(既存在)としてマークされ、異なるスコアが登録されている場合は score_conflict(スコア競合)としてフラグが立ち、モデルリポジトリが Hub で解決できない場合は missing_hf_model としてマークされます。それ以外のケースはすべて ready(準備完了)とみなされます。
承認なしに何もプッシュされません。 このツールはローカルの YAML プレビューと確認用のファイルを作成し、ユーザーが検査できるようにします。何が進捗しているか、どこに注意が必要かを報告するレポートを表示し、ユーザーが「OPEN PRS」と入力してコミットメッセージを入力した後にのみプルリクエストを開きます。再実行時は、--force オプションを指定しない限りコレクションのキャッシュ結果が再利用されます。
*コンバーターのレビューステップ。一致する Hugging Face リポジトリがないエントリ(ここでは除外)は、その EEE ソース URL とともにリストされ、準備完了の PR は明示的な OPEN PRS 確認を待機しています。
ここから始める
完全な記録を EEE データストア に提出してください。
EEE を利用するには、コンバーターが主に自動化する追加のステップが 1 つだけ必要です。コミュニティ評価変換ツール は GitHub リポジトリで見つけることができます。コレクションを処理するには、以下を実行してください:
uv run tools/hf-community-evals/community_evals_converter.py MMLU-Pro \
--datastore evaleval/EEE_datastore@main
生成されるプレビューとレポートを確認し、提出する準備ができたら OPEN PRS と入力してください。スキーマ、CLI、およびコンバーターの完全なドキュメントは evalevalai.com/every_eval_ever/hf-community-evals にあります。
原文を表示
- How Hugging Face Community Evals works together with EvalEval
- How it works
- Start here
Every Eval Ever (EEE) and Hugging Face Community Evals are now intercompatible. We enable cross-posting and interpreting evaluation results, while linking to open models, leaderboards, and a unified standardized metadata store.
EEE launched in February 2026 as a project of the EvalEval Coalition, the first cross-institutional effort to improve how AI evaluation results get reported by both first and third party evaluators. Hugging Face launched Community Evals in February 2026 to decentralize how benchmark scores get reported on the Hub. Combined, they patch gaps in how users, researchers, and policymakers trust, understand, and choose evaluations and models.
Evaluation results are how we measure model capabilities, compare models against each other, and reason about safety and governance, and yet they are scattered and hard to compare. They live in papers, leaderboards, blog posts, and harness logs, among others, each in its own format. The same model on the same benchmark often returns different scores depending on who ran it and how; LLaMA 65B, for one, has been reported at both 63.7 and 48.8 on MMLU. These gaps can arise from evaluation settings that we found are commonly unreported.
EEE is our fix for the reporting side. It's one JSON schema for an evaluation result that records:
- who ran it
- which model
- how it was accessed
- generation settings
- what the metric actually means
- [recommended] companion JSONL file for per-sample outputs.
The schema was built with feedback from researchers and policy researchers, and it takes in results from any source, so harness logs, leaderboard scrapes, and paper numbers all end up in the same shape. The GitHub repository has the converters, examples, and a contributor guide. Since launching, the datastore on Hugging Face has grown to around 229,000 evaluation results across more than 22,000 models and 2,200 benchmarks, pulled from 31 different reporting formats. Reproducing just those runs from scratch would cost somewhere in the hundreds of thousands of dollars, which is a reasonable argument for not letting the data scatter once someone has paid to generate it.
Learn more about the schema and how to contribute here.
Now, it comes with better integration and attribution. Contributors can now send EEE results to Hugging Face Community Evals. We built a converter that takes your EEE records and writes the small YAML files Hugging Face expects, so you don't have to keep the same result in two formats by hand.
This is new functionality for everyone who reports or reads evaluations, not only existing EEE contributors. First-party evaluators reporting on their own models and third-party evaluators reporting on someone else's can both submit to Community Evals and to EEE, and anyone browsing the Hub gets results that trace back to a full record. When you submit your data through your organization's official Hugging Face account, your results show up with a verified checkmark on EvalEval, a signal to readers that the numbers come straight from the source. The rest of this post walks through what Community Evals are and what the converter does.
How Hugging Face Community Evals works together with EvalEval
Hugging Face Community Evals has two sides.
A benchmark lives in a dataset repo that registers itself by adding an eval.yaml. Once registered, that dataset page collects and displays a leaderboard of every score reported against it across the Hub. The list of official benchmarks grows over time.
A model's scores live in .eval_results/*.yaml inside the model repo. They show up on the model card and feed into the matching benchmark leaderboard. Both the model author's own results and results submitted by anyone else through a pull request get aggregated, and each score carries a badge saying whether it was author-submitted, community-submitted, or independently verified. Anyone can add a score to any model by opening a PR with the right YAML file, and the model author can close PRs or hide results on their own repo.
Here is what one of these leaderboards looks like:
*Community Evals Leaderboard for Humanity's Last Exam on the Hub*
This is where EEE and Community Evals fit together. When you send a result to both, two things happen: First, your score appears on the Hugging Face model page and gets pulled into the benchmark's leaderboard. And second, it carries a source badge that links straight back to the full EEE record, where the generation config, the harness version, the reproducibility notes, and any instance-level data live.
*An Evaluation (MMLU-Pro) from EEE Datastore (a) cross-linked at the file level to a Hugging Face model card (b). The Source EvalEval badge links to the full JSON record.*
The two destinations do different jobs toward the same goal. Hugging Face puts your result where people look at models, with a link back to the source. EEE keeps the full structured record that makes the result interpretable, and powers Eval Cards on top of it. Send your data to both and the same evaluation ends up visible and legible at once, which is the point of reporting one at all.
You can see that cross-compatibility below. The same GPQA scores that surface on the model card above also render in Eval Cards, which composes the EEE run data with benchmark and model metadata into one interpretable record. Same evaluation, a different surface:
How it works
Hugging Face stores eval scores in the model repo as a YAML under .eval_results/. The required fields are just the benchmark dataset, the task, and the value. The source block is the part that creates the backlink to EEE.
- dataset:
id: openai/gsm8k
task_id: gsm8k
value: 96.8
date: '2024-07-16'
notes: '8-shot CoT'
source:
url: https://huggingface.co/datasets/evaleval/EEE_datastore/blob/main/flat/objects/<xx>/<yy>/<uuid>.json
name: EvalEval
The converter fills this in from your existing records. It maps source_data.hf_repo to dataset.id, evaluation_name to task_id, score_details.score to value, and evaluation_timestamp to date, then drops in the datastore object URL as the source link to the per-record EEE JSON. It currently handles four of the official benchmarks: MMLU-Pro, GPQA, HLE, and GSM8K.
The converter does more than reshape fields. You point it at one EEE datastore collection and it downloads that collection along with the records it references, checks the object hashes, and finds the scores that map to a supported benchmark. Before it writes anything live it audits what already exists: it reads every .eval_results YAML on the model's main branch and in open PRs, and compares by dataset and task rather than by filename. If a score is already there it is marked already_present, if a different score is there it is flagged as a score_conflict, and if the model repo doesn't resolve on the Hub it is marked missing_hf_model. Everything else is marked ready.
Nothing gets pushed without your sign-off. The tool writes local YAML previews and a review file you can inspect, shows a report of what is ready and what needs attention, and only opens PRs after you type OPEN PRS and enter a commit message. Reruns reuse the cached results for a collection unless you pass --force.
*The converter's review step. Excluded entries (here, models with no matching Hub repo) are listed with their EEE source URLs, and the ready PRs wait on an explicit OPEN PRS confirmation.*
Start here
Submit your full records to the EEE datastore.
Utilizing EEE requires only one additional step, which the converter largely automates. The community eval converter tool can be found in the GitHub repository. To process a collection, execute the following:
uv run tools/hf-community-evals/community_evals_converter.py MMLU-Pro \
--datastore evaleval/EEE_datastore@main
Review the previews and the report it generates, then type OPEN PRS when you're ready to submit. Full documentation for the schema, CLI, and converters is at evalevalai.com/every_eval_ever/hf-community-evals.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み