FACTSベンチマークスイート:大規模言語モデルの事実性を体系的に評価
Google DeepMindは、大規模言語モデル(LLM)の事実性を体系的に評価するための包括的なベンチマークスイート「FACTS Benchmark Suite」をKaggleと共同で公開し、パラメトリック、検索、マルチモーダル、グラウンディングの4種類のベンチマークと合計3,513の例題を提供するとともに、公開リーダーボードを設置した。
キーポイント
FACTS Benchmark Suiteの公開
Google DeepMindがKaggleと共同で、LLMの事実性を体系的に評価するための包括的なベンチマークスイートを公開した。
4種類のベンチマーク構成
パラメトリック(内部知識へのアクセス)、検索(検索ツールの活用)、マルチモーダル(画像関連プロンプト)、グラウンディング(コンテキストに基づく回答)の4種類のベンチマークで構成される。
大規模な評価データセット
合計3,513の例題を公開し、標準的な業界慣行に従って評価用のプライベートセットも保持している。
公開リーダーボードの設置
Kaggleがベンチマークスイートの管理、主要LLMのテスト、結果の公開リーダーボードのホスティングを担当する。
FACTS Search Benchmarkの特徴
Web検索ツールを使用して質問に答える能力を評価するベンチマークで、複数の事実を順次取得する必要がある難しい質問を含む。全モデルに同じ検索ツールを提供し、カスタム検索設定の影響を排除している。
FACTS Multimodal Benchmarkの目的
画像ベースの質問に対して事実に基づいた正確なテキストを生成する能力を評価するベンチマークで、視覚的接地と内部知識の統合が求められる。
FACTS Benchmark Suiteの構成と評価結果
FACTS Benchmark SuiteはGrounding、Multimodal、Parametric、Searchの4つのベンチマークで構成され、15の主要LLMを評価した結果、Gemini 3 Proが全体スコア68.8%で最高性能を示した。特にSearchとParametricで前モデルから大幅な改善が見られた。
影響分析・編集コメントを表示
影響分析
このベンチマークスイートの公開は、LLMの事実性評価を標準化し、業界全体でのモデル性能の透明性と比較可能性を高める重要な一歩となる。特に、検索やマルチモーダルなど実用的なユースケースを含むことで、研究開発の方向性に影響を与える可能性が高い。
編集コメント
LLMの信頼性向上に向けた業界の取り組みが具体化した重要な発表。ベンチマークの公開とリーダーボードの設置により、開発競争がより透明で実用的な方向に進む可能性がある。
FACTS ベンチマークスイート:大規模言語モデルの事実性を体系的に評価する
大規模言語モデル(LLM: Large Language Models)は、多様なユースケースにおいて情報提供の主要なソースとしてますます重要になっており、その回答が事実上正確であることが極めて重要です。
この業界全体に共通する課題に対するパフォーマンスを継続して向上させるためには、モデルが正確な回答を提供することに苦戦するユースケースの種類をよりよく理解し、これらの領域における事実性のパフォーマンスをより適切に測定する必要があります。
FACTS ベンチマークスイート
本日、私たちは Kaggle と提携し、FACTS ベンチマークスイートを発表します。これは、以前に開発した FACTS グランディングベンチマーク(FACTS Grounding Benchmark)を拡張するものであり、以下の 3 つの追加的な事実性ベンチマークを含んでいます:
パラメトリックベンチマークは、ファクトイド質問ユースケースにおいて、モデルが内部知識を正確にアクセスできる能力を測定します。
サーチベンチマークは、モデルが検索ツールとして検索機能を使用し、情報を取得して正しく統合する能力を試すものです。
マルチモーダルベンチマークは、入力画像に関連するプロンプトに対して、事実上正しい方法で回答するモデルの能力を検証するものです。
また、元の FACTS グラウンディングベンチマークを「Grounding Benchmark - v2」として更新します。これは、与えられたプロンプトの文脈に基づいて回答を提供するモデルの能力を検証するための拡張されたベンチマークです。
各ベンチマークは慎重に選定され、合計 3,513 の事例を作成しました。これらを本日、一般公開いたします。前回のリリースと同様に、業界標準の慣習に従い、評価セットの一部を非公開のセットとして保持しています。FACTS ベンチマークスイートスコア(または FACTS スコア)は、4 つのベンチマークにわたる公共セットと非公開セットの両方の平均精度として計算されます。Kaggle が FACTS ベンチマークスイートの管理を監督します。これには、非公開の保持セットの所有、主要な大規模言語モデル(LLM: Large Language Model)のベンチマークでのテスト、および結果をパブリックリーダーボードにホストすることが含まれます。FACTS 評価手法の詳細については、当社の技術レポートをご覧ください。
ベンチマーク概要
パラメトリックベンチマーク
FACTS パラメトリックベンチマークは、ウェブ検索などの外部ツールの支援なしに、モデルが事実上の質問に正確に回答する能力を評価します。ベンチマーク内のすべての質問は、「クイズ形式」の質問であり、ユーザーの関心に基づいており、Wikipedia(LLM の事前学習における標準的なソース)を通じて回答可能です。結果として得られるベンチマークには、1,052 件の事例からなる公共セットと、1,052 件の事例からなる非公開セットが含まれます。
Parametric ベンチマークにおける質問セット全体に対する割合として示された、コンテキストドメインの分布(左)と回答タイプの分布(右)。
公開セットからの典型的なプロンプトでは、モデルにニッチなトピックに関する単純な質問に答えることが求められます。例えば、「『ロックフォード・ファイルズ』のテーマソングでハーモニカを演奏したのは誰か?」といった問いです。
Search Benchmark
対照的に、FACTS Search ベンチマークは、モデルが Web 検索ツールを使用して質問に回答する能力を評価するものです。このベンチマークは、Web にアクセスできる場合でも LLM(大規模言語モデル)にとって挑戦的になるように設計されており、単一のクエリに答えるために複数の事実を順次取得することがしばしば必要とされます。同じ Web 検索ツールがすべてのモデルに対して提供されるため、カスタムの Web 検索設定という交絡因子を排除し、純粋なモデルの能力のみがテストされます。FACTS Search は、890 件の項目からなる公開セットと、994 件の項目からなる非公開セットで構成されています。
Search ベンチマークにおけるプロンプトの総セットに対する割合として示された、コンテキストドメイン(左)とユーザーが要求したタスク(右)の分布。
以下の例は公開セットから選ばれたものであり、複数のウェブページからの情報取得を必要とするため含まれています。「1960 年夏季オリンピックでワジク・カザリアンを破ったイギリスのボクサー、同じくその大会の男子ライトウェルター級に出場したモロッコのボクサー、そして 1960 年と 1964 年の両方の夏季オリンピックに出場したデンマークのボクサーの生年の合計はいくつか?」
マルチモーダルベンチマーク
FACTS マルチモーダルベンチマークは、画像ベースの質問に対してモデルが事実に基づいた正確なテキストを生成する能力を評価するものであり、これは現代のマルチモーダルシステムにとって重要な機能です。
このタスクでは、視覚的グラウンディングの統合が必要であり、これは内部または「パラメトリック」な世界知識を用いて、視覚入力からの情報を正確に解釈し関連付ける能力を指します。評価フレームワークは、回答が正しくかつ完全となるために必要なすべての情報を提供していることを保証するように設計されています。ベンチマークには、711 件の項目からなる公開セットと、811 件の項目からなる非公開セットが含まれています。
多モーダル・ベンチマークの一部としての画像の分布(左)および質問カテゴリの分布(右)。
例えば、多モーダル・ベンチマークの公開セットから得られた以下の画像に、「この動物はどの属に分類されるか?」というプロンプトが付随していました。
多モーダル・ベンチマークからの画像の例(写真提供:Image: Racta apella by desertnaturalist, CC BY 4.0)
私たちは、更新された FACTS Grounding v2 を含む FACTS Benchmark Suite において、主要な大規模言語モデル(LLM)を評価しました。
以下の表には、15 の主要モデルとそれらの総合 FACTS スコア(および 4 つの個別ベンチマーク:Grounding、Multimodal、Parametric、Search におけるスコアの内訳)が記載されています。
Gemini 3 Pro が総合パフォーマンスで首位に立ち、FACTS スコアは 68.8% です。特に、Gemini 2.5 Pro から Gemini 3 Pro への移行において、Search および Parametric の各スライスで顕著な改善が見られました。FACTS Search では誤り率が 55% 減少し、FACTS Parametric では 35% 減少しました。一方、FACTS Multimodal は一般的に最も低いスコアを示しました。評価されたすべてのモデルの総合精度は 70% を下回っており、今後のさらなる進歩のための十分な余地が残されています。
FACTS Benchmark Suite 以外でも、Gemini の事実性に関する改善は、別の事実性ベンチマークである SimpleQA Verified にも反映されています。SimpleQA Verified では、Gemini 2.5 Pro で 54.5% だった精度が Gemini 3 Pro では 72.1% に向上しました。SimpleQA Verified は、LLM のパラメトリック知識を短形回答でテストするものです。
LLM の事実性はまだ研究が続いている分野ですが、FACTS ベンチマークスイートと Gemini 3 Pro の結果は、情報を普遍的にアクセス可能で有用なものにするという Google の長期的なコミットメントを象徴するものです。この取り組みが LLM の事実性に関するより深い研究を促し、それらに依存する人々にとってより良く、より正確なモデルや製品につながることを願っています。
FACTS Grounding: 大規模言語モデルの事実性を評価するための新たなベンチマーク
Gemini 3 による知能の新たな時代
原文を表示
FACTS Benchmark Suite: Systematically evaluating the factuality of large language models
Large language models (LLMs) are increasingly becoming a primary source for information delivery across diverse use cases, so it’s important that their responses are factually accurate.
In order to continue improving their performance on this industry-wide challenge, we have to better understand the types of use cases where models struggle to provide an accurate response and better measure factuality performance in those areas.
The FACTS Benchmark Suite
Today, we’re teaming up with Kaggle to introduce the FACTS Benchmark Suite. It extends our previous work developing the FACTS Grounding Benchmark, with three additional factuality benchmarks, including:
A Parametric Benchmark that measures the model’s ability to access its internal knowledge accurately in factoid question use-cases.
A Search Benchmark that tests a model’s ability to use Search as a tool to retrieve information and synthesize it correctly.
A Multimodal Benchmark that tests a model’s ability to answer prompts related to input images in a factually correct manner.
We are also updating the original FACTS grounding benchmark with Grounding Benchmark - v2, an extended benchmark to test a model’s ability to provide answers grounded in the context of a given prompt.
Each benchmark was carefully curated to produce a total of 3,513 examples, which we are making publicly available today. Similar to our previous release, we are following standard industry practice and keeping an evaluation set held-out as a private set. The FACTS Benchmark Suite Score (or FACTS Score) is calculated as the average accuracy of both public and private sets across the four benchmarks. Kaggle will oversee the management of the FACTS Benchmark Suite. This includes owning the private held-out sets, testing the leading LLMs on the benchmarks, and hosting the results on a public leaderboard. More details about the FACTS evaluation methodology can be found in our tech report.
Benchmark overview
Parametric Benchmark
The FACTS Parametric benchmark assesses the ability of models to accurately answer factual questions, without the aid of external tools like web search. All the questions in the benchmark are “trivia style” questions driven by user interest that can be answered via Wikipedia (a standard source for LLM pretraining). The resulting benchmark consists of a 1052-item public set and a 1052-item private set.
Distribution of context domain (left) and distribution of the answer type (right) as a percent of the total set of questions in the Parametric benchmark.
A typical prompt from the public set would require the model to answer a simple question on a niche topic, e.g., “Who played harmonica on ‘The Rockford Files’ theme song?”
Search Benchmark
By contrast, the FACTS Search benchmark evaluates a model’s ability to use a web search tool for answering questions. This benchmark was designed to be challenging for LLMs even with access to the web, often requiring the retrieval of multiple facts sequentially to answer a single query. The same web search tool is being made available to all models, ensuring the model capabilities are tested in isolation without the confounding factor of custom web retrieval settings. FACTS Search consists of a 890-item public set and a 994-item private set.
Distribution of context domain (left) and distribution of the task requested by the user (right) as a percent of the total set of prompts in the Search benchmark.
The following example from the public set was included because it requires retrieving information from several web pages, “What is the sum of the birth years of the British boxer who defeated Vazik Kazarian at the 1960 Summer Olympics, the Moroccan boxer who also competed in the men’s light welterweight event at those same Olympics, and the Danish boxer who competed in both the 1960 and 1964 Summer Olympics?”
Multimodal Benchmark
The FACTS Multimodal benchmark evaluates the ability of models to generate factually accurate text in response to image-based questions, which is a critical capability for modern multimodal systems.
This task requires the integration of visual grounding, i.e. its ability to accurately interpret and connect information from visual input, using its internal or “parametric” world knowledge. The evaluation framework is designed to ensure that a response is both correct and provides all necessary information to be complete. The benchmark consists of a 711-item public set and a 811-item private set.
Distribution of image (left) and distribution of the question categories (right) as a part of the Multimodal benchmark.
For example, the following image from the public set of the Multimodal benchmark appeared with the prompt: “What genus does this animal belong to?”
An example of an image from the Multimodal benchmark (Photo credit: Image: Racta apella by desertnaturalist, CC BY 4.0)
We evaluated leading LLMs on the FACTS Benchmark Suite, which includes the updated FACTS Grounding v2.
The table below lists 15 leading models and their overall FACTS score (followed by the breakdown to the scores across the four individual benchmarks: Grounding, Multimodal, Parametric and Search).
Gemini 3 Pro leads in overall performance, with a FACTS Score of 68.8%. In particular, we saw significant improvements from Gemini 2.5 Pro to Gemini 3 Pro in Search & Parametric slices, where the error rate was reduced by 55% on FACTS Search and 35% for FACTS Parametric. FACTS Multimodal saw the lowest scores, generally. All evaluated models achieved an overall accuracy below 70%, leaving considerable headroom for future progress.
Beyond the FACTS Benchmark Suite, Gemini’s improvement in factuality is also reflected in another factuality benchmark, SimpleQA Verified, going from 54.5% accuracy on Gemini 2.5 Pro to 72.1% accuracy on Gemini 3 Pro. SimpleQA Verified tests LLMs’ parametric knowledge on short-form responses.
While LLM factuality is still an area of ongoing research, the FACTS Benchmark Suite and Gemini 3 Pro results are representative of Google’s long-term commitment towards making information universally accessible and useful. We hope this work encourages deeper research into LLM factuality, leading to better and more accurate models and products for the people that rely on them.
FACTS Grounding: A new benchmark for evaluating the factuality of large language models
A new era of intelligence with Gemini 3
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み