GoogleのAletheiaが完全自律的なエージェント型数学研究の最先端を前進

Googleは、Gemini 3 Deep Thinkを活用し、FirstProof challengeで10問の新しい数学問題のうち6問を解いたAI「Aletheia」を発表した。また、AletheiaはIMO-ProofBenchで約91.9%のスコアを記録しており、人間の介入なしに研究レベルの証明を自動発見する分野において大きな転換点を示している。 多くの場合、データコンタミネーション（data contamination）に見舞われる従来のベンチマークとは異なり、FirstProof challengeは10問の未発表・研究レベルの数学補題（mathematical lemmas）で構成されている。これらの問題は数学者の現在進行形の作業から提供され、これまでオンライン上で公開されたことがないため、AIが以前にこれらを目にした可能性はほぼないと見なされている。さらに、参加者には解答の提出に1週間しか与えられていない。 人間のヒントやダイアログループ（dialogue loops）なしで生の問題プロンプトを与えられたAletheiaは、候補となる証明を完全に自律的に生成した。専門の人間評価者は、提案された10件の解答のうち6件を「軽微な修正後に掲載可能」と判断した。特筆すべきは、問題8の解答が7人の専門家中5人から正解と評価されたことであり、残りの専門家は明確な詳細の欠如を遺憾に思っている。重要なのは、残りの4問については、Aletheiaが説得力はあるが欠陥のある解答を幻覚出力（hallucinating）するのではなく、「解答が見つからなかった」またはタイムアウトと明示的に出力したことである。DeepMindの研究者は次のようにコメントしている： 「この自己フィルタリング機能はAletheiaの主要な設計原則の一つでした。私たちは、研究数学におけるAI支援を拡大する上での最大のボトルネックは信頼性であると見なしています。私たちは…多くの現場の研究者が、純粋な問題解決能力と引き換えに、より高い精度を好むだろうと考えています。」 OpenAIも、内部開発の未公開推論モデルを用いてこのチャレンジに挑戦した。当初は10問中6問（具体的には問題2、4、5、6、9、10）を解いたと報告していたが、問題2の解答に論理的な欠陥が見つかったため、その推定値は後に5問へと下方修正された。DeepMindの厳格なゼロショット自動化（zero-shot automation）とは異なり、OpenAIは複数の試行から最良の出力を手動で評価・選択するために限定的な人間の監督に依存していることを認めている。 内部構造において、AletheiaはGemini 3 Deep Thinkアーキテクチャを活用し、拡張された「テスト時計算量（test-time compute）」（推論時間：inference time）に依存している。このシステムは、論理ステップを提案するGenerator（Generator）、ステップの欠陥を評価するVerifier（Verifier）、そしてミスを反復して修正するReviser（Reviser）を含むマルチエージェントフレームワーク（multi-agent framework）を使用している。Google Searchなどの外部ツールを統合することで、このエージェントは既存の文献を参照して概念を検証でき、大規模言語モデル（LLMs）に典型的に見られる根拠のない引用を回避しやすくなる。 （出典：Google DeepMindブログ） Luhui Devによる詳細な分析で探られているように、Aletheiaは厳格かつ実行可能な研究ループに例えられ、数学におけるCI/CDパイプライン（CI/CD pipeline）に似ている：提案、検証、失敗、修正、マージ。大規模言語モデル（LLM）は創造的な候補生成者として機能し、第2のエージェントはピアレビューアー（peer reviewer）として作用して修正を推進する。 しかし、研究者たちは論文『Towards Autonomous Mathematics Research』において、数ヶ月で進歩は著しいものの、完全な自律性（full autonomy）はまだ達成されていないと指摘している： 「検証者（verifier）メカニズムを備えていても、Aletheiaは人間の専門家よりも依然としてエラーを起こしやすい。さらに、曖昧な余地がある場合、モデルは回答が最も簡単な方法で質問を誤解する傾向を示す…これは機械学習（machine learning）におけるよく知られた『仕様ゲーミング（specification gaming）』や『報酬ハッキング（reward hacking）』の傾向と一致する。」 この取り組みに関わる数学者たちはすでに第2版の開発に取り組んでいる。第2弾の問題セットは2026年3月から6月にかけて作成、テスト、採点される予定であり、今回は完全に形式化されたベンチマーク（fully formal benchmark）として設計されている。 Aletheiaは、Gemini Deep Thinkの高度なバージョンによって駆動されている。 執筆者について Bruno Couriol 電気通信学修士（MSc）。数学学士（BSc）。

背景や根拠まで確認しますか？

関連記事

調べる

選ぶ

サイト