「AIモデルに『わからない』と言う方法を教える」
MITの研究者は強化学習の報酬関数に較正スコアを追加する「RLCR」手法を開発し、AIモデルの過度な自信を抑制しつつ精度を維持する信頼性のある出力を実現した。
キーポイント
過自信の根本原因
現在の推論型AIは正解・不正解に関わらず同等の報酬を受ける強化学習構造を採用しており、不確実性へのインセンティブが欠如しているため、モデルは常に過度な自信を持って回答する傾向がある。
RLCR手法の核心
強化学習の報酬関数にブリアスコア(Brier score)を組み込むことで、モデルは「回答の正解性」と「その回答への自信度」を同時に学習し、実際の精度と自信の乖離を罰則として修正する。
実験結果と汎用性
複数のベンチマークで較正誤差を最大90%削減し、学習済みタスクだけでなく未見のタスクにおいても精度を維持・向上させることを実証した。
実務導入への意義
医療、法務、金融など意思決定が求められる分野でのAI活用リスクを軽減し、ユーザーが適切なセカンドオピニオンを求めるための明確なシグナルを提供する。
影響分析・編集コメントを表示
影響分析
本研究は、大規模言語モデルの「過自信」問題を強化学習のパラダイム自体にアプローチし、実用的な解決策を示した。医療や金融といった高リスク分野でのAI活用において、モデルの自己認識能力を向上させることは、人間の監督と意思決定の質を根本から高める。今後はRLHF/RLAIFパイプラインへの標準的な組み込みが期待され、AI安全性と信頼性の議論に新たな基準をもたらす。
編集コメント
強化学習の報酬設計に「自信度」を組み込む発想は、AIの信頼性向上において極めて理にかなっている。今後は大規模推論モデルへの標準適用と、実環境でのユーザー行動変容に関する追跡研究が待たれる。
AIモデルに「わからない」と言う方法を教える
自信は説得力を持つ。しかし、人工知能(Artificial Intelligence systems)システムにおいては、それはしばしば誤解を招くものだ。
現在最も能力の高い推論モデルは、会議室で一番大きな声を出す人物と共通の性質を持っています。それは、正解であれ推測であれ、すべての回答を揺るぎない確信を持って提示する点です。MITのコンピュータサイエンス・人工知能研究所(CSAIL)の研究チームは、この過剰な自信がモデルの訓練方法にある特定の欠陥に起因することを突き止め、精度を犠牲にすることなくこれを修正する手法を開発しました。
この手法は「RLCR(Reinforcement Learning with Calibration Rewards)」と呼ばれ、言語モデルに回答と合わせて補正された自信度の推定値を生成するよう訓練します。回答を導き出すだけでなく、モデルはその回答に対する不確実性を考え、自信スコア(Confidence score)を出力します。複数のベンチマークでの実験において、RLCRはモデルが訓練されたタスクだけでなく、これまで全く見ていない新しいタスクにおいても精度を維持または向上させながら、キャリブレーション誤差(Calibration error)を最大90%削減しました。この研究成果は、今月末に開催されるInternational Conference on Learning Representationsで発表されます。
この問題の根源は、驚くほど単純なところにあります。OpenAIのo1のようなシステムで用いられている訓練手法を含む、最近のAI推論における飛躍的進歩を支える強化学習(Reinforcement Learning, RL)手法は、正解を得たモデルに報酬を与え、誤答を得たモデルにペナルティを科します。その中間は何もありません。慎重な推論を経て正解にたどり着いたモデルも、偶然で正解を当てたモデルも、同じ報酬を受け取ります。このプロセスが長期間にわたって繰り返されることで、モデルは強力な根拠がある場合も、実質的にコインを投げて決めている場合も、問われるすべての質問に自信を持って答えるよう訓練されてしまいます。
この過剰な自信には重大な影響があります。モデルが医療、法務、金融、あるいはAIの出力に基づいてユーザーが意思決定を行うあらゆる場面で導入される際、実際の確実性に関係なく高い自信を示すシステムは、外部からは検出が困難な形で信頼性を失います。「95%の確信がある」と言いながら実際には半分しか正しくないモデルは、単に間違った回答をするモデルよりも危険です。なぜなら、ユーザーがセカンドオピニオンを求めるための手がかりを一切得られないからです。
「標準的な訓練アプローチはシンプルかつ強力ですが、モデルに不確実性を表明したり『わかりません』と答えたりするインセンティブを与えていません」と、MITの博士課程学生であり論文の共筆責任著者であるMehul Damani氏は述べています。「そのため、モデルは不確実な状態になると自然に推測するよう学習してしまうのです。」
RLCRは、報酬関数(Reward function)に単一の項を追加することでこの課題に対処します。それがブリアースコア(Brier score)です。これはモデルが表明した自信度と実際の精度の乖離をペナルティとして科す、確立された指標です。訓練中、モデルは問題自体だけでなく自身の不確実性についても推論することを学び、回答と自信度の推定値を同時に生成します。自信を持って間違った回答はペナルティを受けます。不必要に不確実な正解も同様です。
数学的根拠がそれを裏付けている。研究チームは形式的に証明し、この種の報酬構造(reward structure)が、正確でありかつ適切に較正されたモデルを保証することを示した。その後、この手法を70億パラメータのモデルを用い、モデルが学習未曾有の6つのデータセットを含む一連の質問応答および数学ベンチマークでテストした。
結果は一貫したパターンを示した。ベースモデルと比較して標準的な強化学習(Reinforcement Learning, RL)トレーニングは較正を積極的に悪化させ、モデルが自身の不確実性を推定する能力を低下させた。RLCRはこの効果を逆転させ、精度の損失なく較正を大幅に改善した。この手法はまた、事後に別の分類器(classifier)を訓練して信頼度スコア(confidence scores)を割り当てるポストホック手法(post-hoc approaches)を上回った。「注目すべきは、通常のRLトレーニングが較正に役立つだけでなく、むしろ積極的に害を及ぼすことです」と、MITの博士課程学生であり共同筆頭著者であるIsha Puriは述べる。「モデルはより能力が高まる一方で、同時に過信するようになるのです。」
研究チームはまた、RLCRが生成する信頼度推定値が推論時(inference time)に実用的に有用であることを示した。モデルが複数の候補回答を生成する場合、自己報告された信頼度が最も高いものを選択するか、多数決方式(majority-voting scheme)で信頼度に基づいて投票に重みを付ける場合、計算資源の規模が拡大するにつれて精度と較正の両方が改善される。
追加の発見として、不確実性について推論する行為自体に価値があることが示唆された。研究者はモデルの出力に基づいて分類器を訓練し、入力にモデルの明示的な不確実性に関する推論を含めることで、特に小規模なモデルにおいて分類器の性能が向上することを見出した。モデルが自分が何を知り、何を知らないかについて行う自己省察的な推論には、飾りに過ぎないものではなく、実際の情報が含まれている。
DamaniおよびPuriに加え、論文の他の著者はStewart Slocum、Idan Shenfeld、Leshem Choshenであり、シニア著者はJacob AndreasおよびYoon Kimである。
原文を表示
Confidence is persuasive. In artificial intelligence systems, it is often misleading.
Today's most capable reasoning models share a trait with the loudest voice in the room: They deliver every answer with the same unshakable certainty, whether they're right or guessing. Researchers at MIT's Computer Science and Artificial Intelligence Laboratory (CSAIL) have now traced that overconfidence to a specific flaw in how these models are trained, and developed a method that fixes it without giving up any accuracy.
The technique, called RLCR (Reinforcement Learning with Calibration Rewards), trains language models to produce calibrated confidence estimates alongside their answers. In addition to coming up with an answer, the model thinks about its uncertainty in that answer, and outputs a confidence score. In experiments across multiple benchmarks, RLCR reduced calibration error by up to 90 percent while maintaining or improving accuracy, both on the tasks the model was trained on and on entirely new ones it had never seen. The work will be presented at the International Conference on Learning Representations later this month.
The problem traces to a surprisingly simple source. The reinforcement learning (RL) methods behind recent breakthroughs in AI reasoning, including the training approach used in systems like OpenAI's o1, reward models for getting the right answer, and penalize them for getting it wrong. Nothing in between. A model that arrives at the correct answer through careful reasoning receives the same reward as one that guesses correctly by chance. Over time, this trains models to confidently answer every question they are asked, whether they have strong evidence or are effectively flipping a coin.
That overconfidence has consequences. When models are deployed in medicine, law, finance, or any setting where users make decisions based on AI outputs, a system that expresses high confidence regardless of its actual certainty becomes unreliable in ways that are difficult to detect from the outside. A model that says "I'm 95 percent sure" when it is right only half the time is more dangerous than one that simply gets the answer wrong, because users have no signal to seek a second opinion.
"The standard training approach is simple and powerful, but it gives the model no incentive to express uncertainty or say I don’t know," says Mehul Damani, an MIT PhD student and co-lead author on the paper. "So the model naturally learns to guess when it is unsure."
RLCR addresses this by adding a single term to the reward function: a Brier score, a well-established measure that penalizes the gap between a model's stated confidence and its actual accuracy. During training, models learn to reason about both the problem and their own uncertainty, producing an answer and a confidence estimate together. Confidently wrong answers are penalized. So are unnecessarily uncertain correct ones.
The math backs it up: the team proved formally that this type of reward structure guarantees models that are both accurate and well-calibrated. They then tested the approach on a 7-billion-parameter model across a range of question-answering and math benchmarks, including six datasets the model had never been trained on.
The results showed a consistent pattern. Standard RL training actively degraded calibration compared to the base model, making models worse at estimating their own uncertainty. RLCR reversed that effect, substantially improving calibration with no loss in accuracy. The method also outperformed post-hoc approaches, in which a separate classifier is trained to assign confidence scores after the fact. "What’s striking is that ordinary RL training doesn't just fail to help calibration. It actively hurts it," says Isha Puri, an MIT PhD student and co-lead author. "The models become more capable and more overconfident at the same time."
The team also demonstrated that the confidence estimates produced by RLCR are practically useful at inference time. When models generate multiple candidate answers, selecting the one with the highest self-reported confidence, or weighting votes by confidence in a majority-voting scheme, improves both accuracy and calibration as compute scales.
An additional finding suggests that the act of reasoning about uncertainty itself has value. The researchers trained classifiers on model outputs and found that including the model's explicit uncertainty reasoning in the input improved the classifier's performance, particularly for smaller models. The model's self-reflective reasoning about what it does and doesn’t know contains real information, not just decoration.
In addition to Damani and Puri, other authors on the paper are Stewart Slocum, Idan Shenfeld, Leshem Choshen, and senior authors Jacob Andreas and Yoon Kim.
関連記事
エンジニア以外にもCoding Agent活用を広げる架け橋に ─ 個人開発から始まった、Codex×Electron製GUIエージェント誕生秘話インタビュー
筆者は個人開発で作成したCodex×Electron製GUIエージェントを紹介し、エンジニア以外もCoding Agentを活用できる仕組みの構築過程をインタビューで解説している。
イーロン・マスク氏によるサム・アルトマン CEO に対する訴訟の全請求が棄却される
裁判所が、イーロン・マスク氏が OpenAI のサム・アルトマン CEO を相手取って提起したすべての法的請求を棄却する判決を下しました。
ムスク対アルトマン裁判は、AI が不適切な人物に導かれていることを証明した
The Verge AI は、イーロン・ムスクとサム・アルトマンの法廷闘争が AI の支配権を巡る戦いだったと報じ、この結果が AI 業界を誤ったリーダーシップが率いていることを示したと分析している。