人類最後の試験は気晴らしである
本記事は、AI の推論能力を極限まで試す新ベンチマーク「Humanity's Last Exam」の概要と目的を解説しつつ、それが業界の真の課題解決への注目を逸らす「気晴らし」である可能性について批判的な視点から分析している。
キーポイント
HLE ベンチマークの背景と構造
従来のテストがAIの進化により陳腐化したため、Center for AI Safety と Scale AI が共同で開発した新基準であり、Nature に掲載された。2,500 問以上の専門知識を要する問題で構成され、暗記や単純な情報検索では解けないよう設計されている。
批判的視点:「気晴らし」である理由
記事のタイトル通り、この極端な評価基準は業界が直面する真の安全課題や実用化の壁から目を逸らすための「気晴らし(Distraction)」であるという懸念が示唆されている。
専門家の多様な意見
記事では、このベンチマークを支持する声と、その実効性や目的に疑問を呈する声を両方紹介し、業界内でまだ合意形成されていない現状を示している。
HLE の設計目的と構成
従来のテスト手法の限界を克服するため、Center for AI Safety と Scale AI が共同開発した、2,500 問以上の専門レベルの問題からなる評価基準であり、暗記や単純な情報検索ではなく複雑な推論能力を試すもの。
現在の最先端モデルの成績
GPT や Gemini などの最上位モデルでも全体の正答率は 45-50% に留まっており、多くの場合、誤った回答に対して過剰に自信を持つ態度(overconfident)が失敗の原因となっている。
専門家コミュニティの意見
HLE が無意味な取り組みとは見なされていないものの、その名称が誇張されたマーケティング的なものであるという批判があり、実用性については技術者や学界で賛否が分かれている。
HLE の必要性と限界
既存のベンチマークが飽和したため、AI が「知らない」ことを認める能力を測る重要な指標として評価されていますが、超学術的な知識に依存し、実社会での性能評価には直結しないという批判もあります。
影響分析・編集コメントを表示
影響分析
この記事は、AI ベンチマークの進化が単なるスコア競争に終始せず、その背後にある社会的・技術的意義を問うべきであるという重要な議論を提起しています。極端な評価基準への過度な注目がいかにして本質的な安全課題や実用化の障壁から目を逸らすかを示すことで、業界関係者に対し、ベンチマーク設計の目的と限界について再考を促す影響を持ちます。
編集コメント
AI ベンチマークの進化は不可欠ですが、スコア向上そのものが目的化しないよう、その社会的文脈を常に意識する必要があります。この記事は、過度な評価競争が本質的な安全課題から目を逸らすリスクを警鐘する貴重な視点を提供しています。
image**
# イントロダクション
ヒューマニティーズ・ラスト・エグザム(HLE)は、現代のほとんどの AI システムの推論能力と深い知識能力を測定するために設計されたベンチマークです。その決定的な特徴は、その基盤となる評価が極限まで行われる点にあります。数十年も前に誕生したチューリングテストの、今日の進化形だと考えてください。
この記事では、このベンチマークについて優しく掘り下げ、なぜそれが作られたのかを概説し、分野の専門家グループからの多様な意見を整理し、最も広く受け入れられている結論の要約で締めくくります。
# なぜ構築されたのか、そして何から成っているのか?
**
従来の AI システムで使用されていたテスト手法は、これらのシステムが進化してほとんど努力なく完璧なスコアを出すようになったことで陳腐化しました。このため、Center for AI Safety は、世界の専門家たちの支援を得て、Scale AI と共同で HLE という新たなベンチマークを作成しました。このベンチマークは、2026 年 1 月に、これまでで最も権威ある科学誌である Nature に掲載されました。以前の評価フレームワークが繰り返したパターンを避けるように慎重に設計されています。
**
では、HLEとは何なのでしょうか?それは、言語モデルのような最先端のAIシステムが受ける試験であり、物理学、数学、生物学、人文科学など100以上の学問分野にわたる2,500問を超える専門レベルの問題で構成されています。重要なのは、これらの問題は暗記によって答えられるものではなく、単純な情報検索や択一問題への回答にも限定されていないことです。むしろ、複雑な演繹的推論と深い理解を要求するものです。
そのような質問の2つの例をご紹介します:
image 2つのHLE問題の例。画像出典:Center for AI Safety
さて、今日最も先進的なモデルがこれまでに示した結果について話しましょう。GPT、Gemini、Claudeのような最も洗練されたフロンティア・モデルでさえ、全体の正答率の閾値である45〜50%をわずかに上回る程度です。この数字は、いかに極めて困難な試験であるかを如実に物語っています。さらに、それらは誤った回答に対して過信に満ちた態度を示す結果として、しばしば失敗します。
# 専門家の間でのHLEに対する支配的な見解は何ですか?
**
正直な答えは、これについて合意がほとんどないということです。意見は技術界、開発者コミュニティ、学術界全体にわたって分かれていますが、HLEにある程度の実用的価値があることを認める方向へ、微妙かつ支配的な傾斜が見られます。ただし、重要なニュアンスが存在します。
一般的に、HLE に精通している専門家や一般大衆は、これを無意味な取り組みと完全に考えてはいませんが、その名付け方が誇張されており、どうやらマーケティング志向のように見える点を指摘しています。
大規模に見ると、HLE に関する主要な意見グループは三つあります:
// 1. HLE は本当に有用で必要不可欠である
約 60% の意見がこの集合的な見解に傾いており、それによれば、現在 HLE が最重要視されるのには技術的な理由があります。つまり、最近まで使われていた言語モデルベンチマークである大規模多機能言語理解(Massive Multitask Language Understanding: MMLU)を含む、AI システム向けの既存のベンチマークやテストフレームワークは飽和状態に陥るか、陳腐化してしまいました。その結果、現代の AI はこれらでほぼ 90% を超えるスコアを記録するため、最新のモデル同士を真に比較し、どちらが最良かを判断することが不可能になっていました。多くの専門家から HLE が称賛される顕著な理由の一つは、それが AI が複雑な問題や対処できない質問に対して幻覚(hallucination)を起こすのではなく、「知らない」と言う意志があるかどうかを測定する点にあります。
// 2. HLE は真の AI からの逸れである
この懐疑的な見解は、意見の約 30% で採用されています。これらの専門家は、このテストが日常生活における AI のパフォーマンスや成功を真に評価するものではなく、過度に学術的で難解な知識に基づいているだけだと考えています。あるエンジニアたちは皮肉にも、「AI が HLE で大規模に 90% を超えるスコアを獲得し始めたら、企業はすぐに HLE 2 を作成するために殺到し、その後も同様にしていくだろう」とさえ言い放ち、大企業に有利なマーケティングのハムスターホイールを強化することになると指摘しています。
// 3. HLE は欠陥がある
これは三つの主要な見解の中で三番目かつ最も小さなもので、データサイエンスフォーラムなどで議論されています。彼らは、HLE が正解とラベル付けされた一部の回答に誤りがあると主張しており、特に化学や高度な数学などのニッチな分野からの質問においてその傾向が顕著です。詩的に言えば、そのようなベンチマークの誤りを最初に検出したのは、最も強力な AI システム自体でした。
# まとめ
要約すると、HLE の有用性が否定されることはなく、その命名は広範にマーケティング上のドラマと見なされているものの、多くの専門家によってその重要性が強調されています。このベンチマークを活用しても、スーパー AI の誕生や人工一般知能(AGI)の真の出現を決定づける可能性は低いと考えられます。AGI は長年にわたり議論されてきた概念ですが、依然として現実よりもフィクションに近い側面が強いです。それでもなお、このベンチマークは、記憶力と論理的能力において最良のモデルや企業を特定するための非常に野心的なツールとして捉えられています。
Iván Palomares Carrascosa は、AI、機械学習、ディープラーニング、および大規模言語モデル(LLM)におけるリーダー、作家、スピーカー、そしてアドバイザーです。彼は、現実世界で AI を活用する方法を他者に指導・訓練しています。
原文を表示

**
# Introduction
Humanity's Last Exam** (HLE) is a benchmark designed to measure the reasoning and deep knowledge capabilities of most modern AI systems. Its defining trait: its underlying evaluation is taken to the extreme. Think of it as nowadays' evolution of the Turing tests, which were born quite a few decades ago.
This article takes a gentle dive into this benchmark, outlining why it was created, curating diverse opinions from groups of experts in the field about it, and wrapping up with a summary of the most widely accepted verdict.
# Why Was It Built, and What Does It Consist Of?
**
Traditional testing methods used in classic AI systems became obsolete as these systems evolved and started to score perfectly without much effort. For this reason, the Center for AI Safety created a novel benchmark called HLE alongside Scale AI with the aid of world experts. The benchmark was published in Nature**, the most prestigious scientific journal to date, in January 2026. It has been carefully designed to avoid repeating patterns as previous evaluation frameworks did.
So, what is HLE about? Well, it is an exam to be taken by state-of-the-art AI systems like language models, and it consists of over 2,500 expert-level questions spanning over a hundred academic disciplines, including but not limited to physics, math, biology, humanities, and much more. Importantly, the questions cannot be answered by memorizing, nor are they limited to simple information retrieval or multiple-choice answering. Instead, they demand complex deductive reasoning and a deep understanding.
Here is an example of two such questions:

**
Two example HLE questions. Image source: Center for AI Safety**
Let's talk about the results yielded to date by the most advanced models today: even the most sophisticated frontier models like GPT, Gemini, or Claude barely surpass the accuracy threshold of 45-50% overall. The figures speak for themselves on how incredibly difficult the exam is. Moreover, they often fail it as a result of behaving in an overconfident fashion in their incorrectly answered questions.
# What Is the Dominant Experts' Opinion About HLE?
**
The honest answer is: there is little consensus about this. The opinion is rather divided across the tech, developer, and academic communities, but there is a subtle, predominant leaning toward accepting some real utility in HLE. There are critical nuances, though.
In general, experts and the wider population who are acquainted with HLE do not totally consider it a meaningless initiative, but they appeal to an exaggerated, seemingly marketing-oriented way to name it.
At a large scale, there are three dominant opinion groups regarding HLE:
// 1. HLE is Truly Useful and Necessary
About 60% of the opinions lean toward this collective opinion, according to which there is a technical reason why HLE is paramount at present: previous benchmarks and testing frameworks for AI systems, including not-so-old language model benchmarks like Massive Multitask Language Understanding (MMLU), became saturated or obsolete, with nearly every modern AI scoring over 90% on them. This made it impossible to truly compare the latest models against each other to determine which one is best. One salient reason why HLE is praised by many experts is that it measures whether the AI is willing to say "I don't know" instead of hallucinating about complex problems or questions it can't address.
// 2. HLE is a Distraction From Real AI
This skeptical viewpoint is adopted by about 30% of the opinions. These experts consider that the test doesn't truly evaluate AI performance and success in daily life scenarios, being purely based on overly academic and obscure knowledge. Some engineers even venture to say, rather ironically, that as soon as AI starts massively scoring over 90% in HLE, enterprises will rush to create HLE 2, and so on, thus consolidating a marketing hamster wheel in favor of large corporations.
// 3. HLE is Flawed
This is the third and smallest of the three dominant opinions, and it is being discussed in data science forums, for instance. They claim HLE has errors in some answers labeled as correct, particularly in some niche questions from areas like chemistry and advanced mathematics. Rather poetically, it has been the most powerful AI systems themselves that started to detect such errors in the benchmark.
# Wrapping Up
To summarize, HLE's usefulness is not denied, and to some extent, its significance is underscored by many experts, although its naming is widely considered sheer marketing drama. Leveraging this benchmark seems not very likely to determine the birth of a super AI or the true emergence of artificial general intelligence** (AGI): a concept that has already been discussed for many years but still is more part of fiction than reality. Nonetheless, the benchmarking is seen as a very ambitious tool to discern which AI or company owns the best model with memory and logical capabilities.
Iván Palomares Carrascosa is a leader, writer, speaker, and adviser in AI, machine learning, deep learning & LLMs. He trains and guides others in harnessing AI in the real world.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み