過信する大規模言語モデルを特定するためのより良い方法
MIT研究者は、単一モデルの自己整合性だけでなく類似モデル間の回答不一致を評価する新手法を開発し、LLMの過剰な自信と不確実性をより正確に検出する総不確実性指標を提案した。
キーポイント
従来の自己整合性ベースの不確実性計測の限界
単一モデルへの複数回質問は内部自信(アレトリック不確実性)しか測れず、間違っていても強い自信を持つLLMの「過信」や知識不足(エピステミック不確実性)を見逃す。
跨モデル不一致(Cross-model disagreement)の導入
ターゲットモデルの回答を類似LLM群の回答と比較することで、モデル固有の限界や誤りを捕捉する評価枠組みを構築し、従来の手法を補完する。
総合不確実性指標の構築と実証
自己整合性と跨モデル不一致を統合した指標を開発し、10件の実務タスク(QA、数学推論等)で既存手法を上回る信頼性検出性能を実証した。
影響分析・編集コメントを表示
影響分析
本手法はLLMのハルシネーション対策と不確実性定量化(UQ)分野における重要なパラダイムシフトを示唆する。単一モデル依存の評価からマルチモデル比較へ移行することで、医療・金融などの実務適用におけるリスク管理基準を向上させる基盤となる。今後は計算コストとのトレードオフを考慮した実装最適化が課題となるが、AI信頼性評価の標準手法へ発展する可能性が高い。
編集コメント
単一モデルの自己評価に依存しない「他者視点」の不確実性計測は、AI信頼性確保の必須要件となる。今後は推論コストを抑制しつつ実装可能な軽量版の登場が期待される。
大規模言語モデル(LLMs)は信頼性が高く見えるが不正確な回答を生成することがあるため、研究者たちは予測の信頼性を確認するための不確実性定量化手法を開発してきた。一般的な方法の一つは、同じプロンプトを複数回送信し、モデルが同じ回答を生成するかどうかを確認するものである。
しかし、この方法は自己信頼度を測定するものであり、最も優れたLLMでさえ自信を持って間違っている可能性がある。過信は予測の正確性についてユーザーを誤解させ、医療や金融のような重要な場面では壊滅的な結果を招く可能性がある。
この欠点に対処するため、MITの研究者たちは、自信を持っているが誤ったLLMの回答をより確実に特定できる、異なるタイプの不確実性を測定する新しい手法を提案した。
彼らの手法は、対象モデルの回答を類似したLLMsのグループからの回答と比較する。彼らは、モデル間の不一致を測定することが、従来のアプローチよりもこのタイプの不確実性をより正確に捉えることを発見した。
彼らはこのアプローチをLLMの自己一貫性の測定と組み合わせて総合不確実性指標を作成し、質問応答や数学的推論など10の現実的なタスクで評価した。この総合不確実性指標は一貫して他の測定法を上回り、信頼できない予測を特定するのに優れていた。
「自己一貫性は不確実性定量化のための多くの異なるアプローチで使用されていますが、不確実性の推定が単一モデルの結果のみに依存している場合、それは必ずしも信頼できるものではありません。私たちは現在のアプローチの限界を理解するために原点に戻り、それを出発点として、経験的に結果を改善できる補完的な手法を設計しました」と、MITの電気工学・計算機科学(EECS)大学院生でこの技術に関する論文の筆頭著者であるKimia Hamidiehは述べている。
論文の共著者には、MIT-IBM Watson AI Labの研究科学者Veronika Thost、元MITポスドクで現在ウースター工科大学助教授のWalter Gerych、MIT-IBM Watson AI Labのスタッフ研究科学者Mikhail Yurochkin、そしてEECS准教授で医学工学科学研究所および情報・意思決定システム研究所のメンバーであるシニア著者Marzyeh Ghassemiが名を連ねている。
過信の理解
不確実性定量化のための多くの一般的な手法は、モデルに信頼度スコアを尋ねたり、同じプロンプトに対する回答の一貫性をテストしたりすることを含む。これらの手法は偶然的不確実性、つまりモデルが自身の予測に対してどれだけ内部的に自信を持っているかを推定する。
しかし、LLMsは完全に間違っているときに自信を持っている可能性がある。研究によると、認識論的不確実性、つまり適切なモデルを使用しているかどうかについての不確実性は、モデルが過信している場合の真の不確実性を評価するより優れた方法となり得る。
MITの研究者たちは、類似したLLMsのグループ間の不一致を測定することで認識論的不確実性を推定する。
「もし私がChatGPTに同じ質問を複数回尋ねて何度も同じ答えを得たとしても、その答えが必ずしも正しいとは限りません。私がClaudeやGeminiに切り替えて同じ質問をし、異なる答えを得たなら、それは認識論的不確実性の感覚を与えてくれるでしょう」とHamidiehは説明する。
認識論的不確実性は、対象モデルがそのタスクに対する理想的なモデルからどれだけ乖離しているかを捉えようとする。しかし、理想的なモデルを構築することは不可能であるため、研究者たちはしばしば欠陥のある仮定に依存する代理や近似を使用する。
不確実性定量化を改善するために、MITの研究者たちは認識論的不確実性をより正確に推定する方法を必要としていた。
アンサンブルアプローチ
彼らが開発した手法は、対象モデルと類似したサイズとアーキテクチャを持つ小さなモデルのアンサンブル間の乖離を測定することを含む。彼らは、意味的類似性、つまり回答の意味がどれだけ密接に一致するかを比較することが、認識論的不確実性のより良い推定を提供できることを発見した。
最も正確な推定を達成するために、研究者たちは多様な回答をカバーし、対象モデルとあまり似ておらず、信頼性に基づいて重み付けされたLLMsのセットを必要とした。
「私たちは、これらすべての特性を満たす最も簡単な方法は、異なる企業によって訓練されたモデルを採用することであることを発見しました。より複雑な多くの異なるアプローチを試しましたが、この非常に単純なアプローチが最終的に最も効果的でした」とHamidiehは述べている。
認識論的不確実性を推定するこの手法を開発した後、彼らはそれを偶然的不確実性を測定する標準的なアプローチと組み合わせた。この総合不確実性指標(TU)は、モデルの信頼度レベルが信頼できるかどうかを最も正確に反映した。
「不確実性は、与えられたプロンプトの不確実性だけでなく、私たちのモデルが最適なモデルにどれだけ近いかにも依存します。これが、これら二つの不確実性指標を合計することが最良の推定を与える理由です」とHamidiehは述べている。
TUは、認識論的不確実性が偶然的不確実性が見逃す可能性のある自信を持った誤った出力にフラグを立てることができるため、LLMが幻覚を起こしている状況をより効果的に特定できる可能性がある。また、トレーニング中にLLMの自信を持った正しい回答を強化することも可能にし、性能を向上させるかもしれない。
彼らは、質問応答、要約、翻訳、数学的推論など10の一般的なタスクにおいて、複数のLLMsを使用してTUをテストした。彼らの手法は、単独のいずれの測定よりも効果的に信頼できない予測を特定した。
総合不確実性の測定は、偶然的不確実性を計算するよりも少ないクエリで済むことが多く、計算コストを削減しエネルギーを節約できる可能性がある。
彼らの実験はまた、認識論的不確実性が事実に関する質問応答のような一意の正解があるタスクで最も効果的であるが、よりオープンエンドなタスクでは性能が低下する可能性があることを明らかにした。
将来的には、研究者たちは彼らの技術を適応させて、オープンエンドなクエリでの性能を向上させることができるかもしれない。また、偶然的不確実性の他の形態を探求することでこの研究を発展させるかもしれない。
この研究は、一部、MIT-IBM Watson AI Labによって資金提供されている。
原文を表示
Large language models (LLMs) can generate credible but inaccurate responses, so researchers have developed uncertainty quantification methods to check the reliability of predictions. One popular method involves submitting the same prompt multiple times to see if the model generates the same answer.
But this method measures self-confidence, and even the most impressive LLM might be confidently wrong. Overconfidence can mislead users about the accuracy of a prediction, which might result in devastating consequences in high-stakes settings like health care or finance.
To address this shortcoming, MIT researchers introduced a new method for measuring a different type of uncertainty that more reliably identifies confident but incorrect LLM responses.
Their method involves comparing a target model’s response to responses from a group of similar LLMs. They found that measuring cross-model disagreement more accurately captures this type of uncertainty than traditional approaches.
They combined their approach with a measure of LLM self-consistency to create a total uncertainty metric, and evaluated it on 10 realistic tasks, such as question-answering and math reasoning. This total uncertainty metric consistently outperformed other measures and was better at identifying unreliable predictions.
“Self-consistency is being used in a lot of different approaches for uncertainty quantification, but if your estimate of uncertainty only relies on a single model’s outcome, it is not necessarily trustable. We went back to the beginning to understand the limitations of current approaches and used those as a starting point to design a complementary method that can empirically improve the results,” says Kimia Hamidieh, an electrical engineering and computer science (EECS) graduate student at MIT and lead author of a paper on this technique.
She is joined on the paper by Veronika Thost, a research scientist at the MIT-IBM Watson AI Lab; Walter Gerych, a former MIT postdoc who is now an assistant professor at Worcester Polytechnic Institute; Mikhail Yurochkin, a staff research scientist at the MIT-IBM Watson AI Lab; and senior author Marzyeh Ghassemi, an associate professor in EECS and a member of the Institute of Medical Engineering Sciences and the Laboratory for Information and Decision Systems.
Understanding overconfidence
Many popular methods for uncertainty quantification involve asking a model for a confidence score or testing the consistency of its responses to the same prompt. These methods estimate aleatoric uncertainty, or how internally confident a model is in its own prediction.
However, LLMs can be confident when they are completely wrong. Research has shown that epistemic uncertainty, or uncertainty about whether one is using the right model, can be a better way to assess true uncertainty when a model is overconfident.
The MIT researchers estimate epistemic uncertainty by measuring disagreement across a similar group of LLMs.
“If I ask ChatGPT the same question multiple times and it gives me the same answer over and over again, that doesn’t mean the answer is necessarily correct. If I switch to Claude or Gemini and ask them the same question, and I get a different answer, that is going to give me a sense of the epistemic uncertainty,” Hamidieh explains.
Epistemic uncertainty attempts to capture how far a target model diverges from the ideal model for that task. But since it is impossible to build an ideal model, researchers use surrogates or approximations that often rely on faulty assumptions.
To improve uncertainty quantification, the MIT researchers needed a more accurate way to estimate epistemic uncertainty.
An ensemble approach
The method they developed involves measuring the divergence between the target model and a small ensemble of models with similar size and architecture. They found that comparing semantic similarity, or how closely the meanings of the responses match, could provide a better estimate of epistemic uncertainty.
To achieve the most accurate estimate, the researchers needed a set of LLMs that covered diverse responses, weren’t too similar to the target model, and were weighted based on credibility.
“We found that the easiest way to satisfy all these properties is to take models that are trained by different companies. We tried many different approaches that were more complex, but this very simple approach ended up working best,” Hamidieh says.
Once they had developed this method for estimating epistemic uncertainty, they combined it with a standard approach that measures aleatoric uncertainty. This total uncertainty metric (TU) offered the most accurate reflection of whether a model’s confidence level is trustworthy.
“Uncertainty depends on the uncertainty of the given prompt as well as how close our model is to the optimal model. This is why summing up these two uncertainty metrics is going to give us the best estimate,” Hamidieh says.
TU could more effectively identify situations where an LLM is hallucinating, since epistemic uncertainty can flag confidently wrong outputs that aleatoric uncertainty might miss. It could also enable researchers to reinforce an LLM’s confidently correct answers during training, which may improve performance.
They tested TU using multiple LLMs on 10 common tasks, such as question-answering, summarization, translation, and math reasoning. Their method more effectively identified unreliable predictions than either measure on its own.
Measuring total uncertainty often required fewer queries than calculating aleatoric uncertainty, which could reduce computational costs and save energy.
Their experiments also revealed that epistemic uncertainty is most effective on tasks with a unique correct answer, like factual question-answering, but may underperform on more open-ended tasks.
In the future, the researchers could adapt their technique to improve its performance on open-ended queries. They may also build on this work by exploring other forms of aleatoric uncertainty.
This work is funded, in part, by the MIT-IBM Watson AI Lab.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み