GoogleのAletheiaが完全自律的なエージェント型数学研究の最先端を前進
Googleが発表したAI「Aletheia」は、Gemini 3 Deep Thinkを活用し、人間の介入なしに新規数学問題の解決や研究レベルの証明発見において画期的な成果を示した。
キーポイント
自律的数学研究AIの画期的成果
GoogleのAI「Aletheia」が、FirstProofチャレンジで新規数学問題10問中6問を解決し、IMO-ProofBenchで約91.9%のスコアを達成した。
人間介入なしの証明発見への転換
この成果は、人間の介入を必要としない自動化された研究レベルの証明発見において、重要な転換点を示している。
Gemini 3 Deep Thinkの応用
Aletheiaは、GoogleのGemini 3 Deep Think技術を基盤として構築され、高度な推論能力を数学研究に応用した。
影響分析・編集コメントを表示
影響分析
この成果は、AIが人間の研究者と同等かそれ以上のレベルで数学的証明を発見できる可能性を示しており、学術研究の方法論そのものを変革する可能性がある。特に、証明発見の自動化は数学研究の効率化と新たな発見の加速につながる重要なマイルストーンとなる。
編集コメント
数学という高度な推論を必要とする分野で、人間の介入なしに研究レベルの成果を出せた点が画期的。AIの研究支援ツールから、自律的研究主体への転換点を示すニュース。
Googleは、Gemini 3 Deep Thinkを活用し、FirstProof challengeで10問の新しい数学問題のうち6問を解いたAI「Aletheia」を発表した。また、AletheiaはIMO-ProofBenchで約91.9%のスコアを記録しており、人間の介入なしに研究レベルの証明を自動発見する分野において大きな転換点を示している。
多くの場合、データコンタミネーション(data contamination)に見舞われる従来のベンチマークとは異なり、FirstProof challengeは10問の未発表・研究レベルの数学補題(mathematical lemmas)で構成されている。これらの問題は数学者の現在進行形の作業から提供され、これまでオンライン上で公開されたことがないため、AIが以前にこれらを目にした可能性はほぼないと見なされている。さらに、参加者には解答の提出に1週間しか与えられていない。
人間のヒントやダイアログループ(dialogue loops)なしで生の問題プロンプトを与えられたAletheiaは、候補となる証明を完全に自律的に生成した。専門の人間評価者は、提案された10件の解答のうち6件を「軽微な修正後に掲載可能」と判断した。特筆すべきは、問題8の解答が7人の専門家中5人から正解と評価されたことであり、残りの専門家は明確な詳細の欠如を遺憾に思っている。重要なのは、残りの4問については、Aletheiaが説得力はあるが欠陥のある解答を幻覚出力(hallucinating)するのではなく、「解答が見つからなかった」またはタイムアウトと明示的に出力したことである。DeepMindの研究者は次のようにコメントしている:
「この自己フィルタリング機能はAletheiaの主要な設計原則の一つでした。私たちは、研究数学におけるAI支援を拡大する上での最大のボトルネックは信頼性であると見なしています。私たちは…多くの現場の研究者が、純粋な問題解決能力と引き換えに、より高い精度を好むだろうと考えています。」
OpenAIも、内部開発の未公開推論モデルを用いてこのチャレンジに挑戦した。当初は10問中6問(具体的には問題2、4、5、6、9、10)を解いたと報告していたが、問題2の解答に論理的な欠陥が見つかったため、その推定値は後に5問へと下方修正された。DeepMindの厳格なゼロショット自動化(zero-shot automation)とは異なり、OpenAIは複数の試行から最良の出力を手動で評価・選択するために限定的な人間の監督に依存していることを認めている。
内部構造において、AletheiaはGemini 3 Deep Thinkアーキテクチャを活用し、拡張された「テスト時計算量(test-time compute)」(推論時間:inference time)に依存している。このシステムは、論理ステップを提案するGenerator(Generator)、ステップの欠陥を評価するVerifier(Verifier)、そしてミスを反復して修正するReviser(Reviser)を含むマルチエージェントフレームワーク(multi-agent framework)を使用している。Google Searchなどの外部ツールを統合することで、このエージェントは既存の文献を参照して概念を検証でき、大規模言語モデル(LLMs)に典型的に見られる根拠のない引用を回避しやすくなる。
(出典:Google DeepMindブログ)
Luhui Devによる詳細な分析で探られているように、Aletheiaは厳格かつ実行可能な研究ループに例えられ、数学におけるCI/CDパイプライン(CI/CD pipeline)に似ている:提案、検証、失敗、修正、マージ。大規模言語モデル(LLM)は創造的な候補生成者として機能し、第2のエージェントはピアレビューアー(peer reviewer)として作用して修正を推進する。
しかし、研究者たちは論文『Towards Autonomous Mathematics Research』において、数ヶ月で進歩は著しいものの、完全な自律性(full autonomy)はまだ達成されていないと指摘している:
「検証者(verifier)メカニズムを備えていても、Aletheiaは人間の専門家よりも依然としてエラーを起こしやすい。さらに、曖昧な余地がある場合、モデルは回答が最も簡単な方法で質問を誤解する傾向を示す…これは機械学習(machine learning)におけるよく知られた『仕様ゲーミング(specification gaming)』や『報酬ハッキング(reward hacking)』の傾向と一致する。」
この取り組みに関わる数学者たちはすでに第2版の開発に取り組んでいる。第2弾の問題セットは2026年3月から6月にかけて作成、テスト、採点される予定であり、今回は完全に形式化されたベンチマーク(fully formal benchmark)として設計されている。
Aletheiaは、Gemini Deep Thinkの高度なバージョンによって駆動されている。
執筆者について
Bruno Couriol
電気通信学修士(MSc)。数学学士(BSc)。
原文を表示
Google announced Aletheia, an AI using Gemini 3 Deep Think that solved 6/10 novel math problems in the FirstProof challenge. Aletheia also scored ~91.9% on IMO-ProofBench, signaling a significant shift in automated research-level proof discovery without human intervention.
Unlike traditional benchmarks that often suffer from data contamination—where models inadvertently memorize training data—the FirstProof challenge consists of ten unpublished, research-level mathematical lemmas. Because these problems were sourced from the ongoing work of mathematicians and had never been posted online, it is deemed virtually impossible for the AI to have seen them before. Furthermore, participants were given only one week to submit their solutions.
Handed raw problem prompts without human hints or dialogue loops, Aletheia produced candidate proofs completely autonomously. Expert human evaluators judged 6 of the 10 proposed solutions as “publishable after minor revisions.” Notably, the solution for Problem 8 was judged correct by 5/7 experts, with the rest of them regretting a lack of clarifying details. Crucially, for the remaining 4 problems, Aletheia explicitly outputted “No solution found” or timed out, rather than hallucinating a convincing but flawed answer. DeepMind researchers commented:
“This self-filtering feature was one of the key design principles of Aletheia; we view reliability as the primary bottleneck to scaling up AI assistance on research mathematics. We suspect that… many practicing researchers would prefer to trade raw problem-solving capability for increased accuracy.”
OpenAI also tackled the challenge with an internal, unreleased reasoning model. They initially reported solving 6 of the 10 problems (specifically problems 2, 4, 5, 6, 9, and 10), but that estimate was later revised downward to 5 after their solution to Problem 2 was found to be logically flawed. Unlike DeepMind’s strict zero-shot automation, OpenAI acknowledged relying on limited human supervision to manually evaluate and select the best outputs from multiple attempts.
Under the hood, Aletheia leverages the Gemini 3 Deep Think architecture, relying on extended “test-time compute” (inference time). The system uses a multi-agent framework including a Generator to propose logical steps, a Verifier to evaluate steps for flaws, and a Reviser to iterate and patch mistakes. By integrating external tools like Google Search, the agent can navigate existing literature to verify concepts and is more likely to avoid the unfounded citations that typically plague LLMs.
(Source: Google DeepMind blog)
As explored in a deep dive by Luhui Dev, Aletheia is akin to as a strict, runnable research loop, thus similar to a CI/CD pipeline for mathematics: propose, verify, fail, repair, and merge. The LLM acts as a creative candidate generator, while a second agent acts as peer reviewer to drive remediation.
However, researchers noted in the paper Towards Autonomous Mathematics Research that while progress has been significant over a few months, full autonomy is yet to be achieved:
“Even with its verifier mechanism, Aletheia is still more prone to errors than human experts. Furthermore, whenever there is room for ambiguity, the model exhibits a tendency to misinterpret the question in a way that is easiest to answer… This aligns with the well-known tendencies for ‘specification gaming’ and ‘reward hacking’ in machine learning.”
The mathematicians behind the initiative are already working on its second iteration. A second batch of problems will be created, tested, and graded from March to June 2026, designed this time as a fully formal benchmark.
Aletheia is powered by an advanced version of Gemini Deep Think
About the Author
Bruno Couriol
MSc in Telecommunications. BSc in Mathematics.
関連記事
Chrome拡張機能でTransformers.jsを使用する方法
開発者はChrome拡張機能にTransformers.jsを組み込み、ブラウザ上で機械学習モデルを実行する。これによりサーバー依存を排除し、プライバシー保護と低レイテンシを実現する実装手順を示す。
Google、Room 3.0を発表:Kotlinファーストの非同期マルチプラットフォーム永続化ライブラリ
GoogleはRoom 3.0を発表した。本バージョンは破壊的変更を導入し、Kotlin Multiplatform対応を強化するとともにJSとWasmへのサポートを追加した。
Google の Gemini 3.1 Flash TTS モデルによる自然な音声合成ツール
Google は、単一話者および複数話者の会話モードに対応し、発声指示タグの適用も可能な「Gemini 3.1 Flash TTS」モデルを公開した。このツールにより、テキストから自然な音声を生成してダウンロードできるようになった。