AIモデルの予測説明能力の向上
MITとミラノ工科大学の研究者チームは、既存のコンピュータビジョンモデルから学習済みの概念を抽出し、人間が理解可能な「概念ボトルネック」を用いて予測の根拠と精度を同時に向上させる新しい解釈可能AI手法を開発した。
キーポイント
概念ボトルネックモデルの課題と解決
従来の概念ボトルネックモデルは人間が事前に定義した概念を使用するため、タスクに適合しない場合があり精度が低下する。本研究では、モデルが学習过程中に獲得した概念を抽出し利用することで、この課題を解決する。
自動概念抽出と翻訳メカニズム
2つの特殊な機械学習モデルのペアを用い、ターゲットモデルから知識を抽出して平易な言語概念に変換する。これにより、事前学習済みの任意のコンピュータビジョンモデルを解釈可能なモデルへ変換可能になる。
医療診断など高リスク分野での応用可能性
メラノーマなどの医療画像診断において、「茶色いドットの塊」や「不均一な色素沈着」といった人間が理解可能な概念を用いることで、モデルの信頼性と説明責任を高め、黒箱化しやすいAIへの信頼構築に寄与する。
影響分析・編集コメントを表示
影響分析
この研究は、AIのブラックボックス問題を解決する上で重要な一歩であり、特に医療や金融など説明責任が強く求められる分野での実装において大きな意味を持つ。既存のモデルを後から解釈可能にする手法であるため、導入コストが低く、業界全体における透明性のあるAI開発の標準化を促進する可能性がある。
編集コメント
既存モデルの解釈可能性を後付けで高める手法は、実務現場でのAI導入障壁を下げる上で極めて重要です。特に医療分野での適用事例は、信頼性向上の具体的な示唆となります。
医療診断のような重要な場面では、ユーザーはコンピュータビジョンモデルが特定の予測を行った理由を知りたがることが多く、それによってその出力を信頼するかどうかを判断できる。
コンセプトボトルネックモデリングは、人工知能システムが意思決定プロセスを説明できるようにする手法の一つである。この手法は、深層学習モデルに人間が理解可能な概念のセットを使用して予測を行うことを強制する。新たな研究で、MITのコンピューター科学者たちは、モデルがより高い精度と、より明確で簡潔な説明を達成するよう導く手法を開発した。
モデルが使用する概念は通常、人間の専門家によって事前に定義される。例えば、臨床医は「茶色の点の集まり」や「斑状の色素沈着」といった概念の使用を提案し、医療画像がメラノーマを示していると予測することができる。
しかし、事前に定義された概念は特定のタスクに対して無関係であったり、詳細が不十分だったりする可能性があり、モデルの精度を低下させる。新手法は、モデルがその特定のタスクを実行するために訓練された際に既に学習した概念を抽出し、モデルにそれらを使用することを強制する。これにより、標準的なコンセプトボトルネックモデルよりも優れた説明を生成する。
このアプローチは、ターゲットモデルから知識を自動的に抽出し、それを平易な言語の概念に変換する一対の特殊化された機械学習モデルを活用する。最終的に、彼らの技術は事前訓練済みのあらゆるコンピュータビジョンモデルを、概念を使用してその推論を説明できるモデルに変換することができる。
「ある意味、私たちはこれらのコンピュータビジョンモデルの心を読みたいのです。コンセプトボトルネックモデルは、ユーザーがモデルが何を考えているか、そしてなぜ特定の予測を行ったかを知るための一つの方法です。私たちの手法はより良い概念を使用するため、より高い精度につながり、最終的にはブラックボックスAIモデルの説明責任を向上させることができます」と、筆頭著者でミラノ工科大学の大学院生であり、この研究をMITのコンピュータ科学・人工知能研究所(CSAIL)で客員研究員として行ったアントニオ・デ・サンティスは述べている。
この研究に関する論文の共著者には、Schrasing Tong SM ’20, PhD ’26; ミラノ工科大学のコンピュータ科学・工学教授であるマルコ・ブランビラ; およびCSAILの主任研究員であるシニアオーサーのララナ・カガルが名を連ねている。この研究は、国際学習表現会議で発表される予定である。
より優れたボトルネックの構築
コンセプトボトルネックモデル(CBM)は、AIの説明可能性を向上させるための一般的なアプローチである。これらの技術は、コンピュータビジョンモデルに画像内に存在する概念を予測させ、その後それらの概念を使用して最終的な予測を行うという中間ステップを追加する。
この中間ステップ、すなわち「ボトルネック」は、ユーザーがモデルの推論を理解するのに役立つ。
例えば、鳥の種を識別するモデルは、ツバメを予測する前に「黄色い脚」や「青い翼」といった概念を選択する可能性がある。
しかし、これらの概念はしばしば人間や大規模言語モデルによって事前に生成されるため、特定のタスクに適合しない可能性がある。さらに、事前定義された概念のセットが与えられたとしても、モデルは時として望ましくない学習情報を利用してしまうことがあり、これは情報漏洩として知られる問題である。
「これらのモデルは性能を最大化するように訓練されているため、モデルは私たちが気づいていない概念を密かに使用している可能性があります」とデ・サンティスは説明する。
MITの研究者たちは別の考えを持っていた。モデルは膨大な量のデータで訓練されているため、手元の特定のタスクに対して正確な予測を生成するために必要な概念を既に学習しているかもしれない。彼らは、この既存の知識を抽出し、人間が理解できるテキストに変換することでCBMを構築しようとした。
彼らの手法の第一段階では、スパースオートエンコーダと呼ばれる特殊な深層学習モデルが、モデルが学習した最も関連性の高い特徴を選択的に取り出し、それを少数の概念に再構築する。次に、マルチモーダルLLMが各概念を平易な言葉で記述する。
このマルチモーダルLLMはまた、データセット内の各画像について、どの概念が存在し、どの概念が存在しないかを識別することで注釈を付ける。研究者たちはこの注釈付きデータセットを使用して、コンセプトボトルネックモジュールを訓練し、概念を認識させる。
彼らはこのモジュールをターゲットモデルに組み込み、研究者たちが抽出した学習済み概念のセットのみを使用して予測を行うことをモデルに強制する。
概念の制御
彼らはこの手法を開発する過程で、LLMが概念を正しく注釈付けしていることを確認することから、スパースオートエンコーダが人間が理解可能な概念を識別したかどうかを判断することまで、多くの課題を克服した。
モデルが未知または望ましくない概念を使用するのを防ぐために、彼らは各予測に対して5つの概念のみを使用するように制限する。これにより、モデルが最も関連性の高い概念を選択することを強制し、説明をより理解しやすくする。
彼らが鳥の種の予測や医療画像における皮膚病変の識別などのタスクにおいて、彼らのアプローチを最先端のCBMと比較したとき、彼らの手法はより正確な説明を提供しながら最高の精度を達成した。
彼らのアプローチはまた、データセット内の画像により適用可能な概念を生成した。
「私たちは、元のモデルから概念を抽出することが他のCBMよりも優れた性能を発揮し得ることを示しましたが、説明可能性と精度の間にはまだトレードオフがあり、対処する必要があります。説明可能でないブラックボックスモデルは、依然として私たちのモデルよりも優れた性能を発揮します」とデ・サンティスは述べている。
将来、研究者たちは情報漏洩問題に対する潜在的な解決策を研究したいと考えており、おそらく追加のコンセプトボトルネックモジュールを追加することで、望ましくない概念が漏洩するのを防ぐことができるかもしれない。彼らはまた、より大きなマルチモーダルLLMを使用してより大規模な訓練データセットに注釈を付けることで手法を拡張し、性能を向上させることを計画している。
「この研究は説明可能なAIを非常に有望な方向に押し進め、記号的AIや知識グラフへの自然な架け橋を創り出しているので、私は興奮しています」と、この研究に関与していなかったヴュルツブルク大学のデータサイエンス講座長であるアンドレアス・ホルト教授は述べている。「人間が定義した概念のみからではなく、モデル自身の内部メカニズムから概念ボトルネックを導出することにより、モデルにより忠実な説明への道を提供し、構造化された知識を用いたフォローアップ研究の多くの機会を開きます。」
この研究は、Progetto Rocca Doctoral Fellowship、国家復興・回復計画下のイタリア大学・研究省、タレス・アレーニア・スペース、およびNextGenerationEUプロジェクト下の欧州連合によって支援された。
原文を表示
In high-stakes settings like medical diagnostics, users often want to know what led a computer vision model to make a certain prediction, so they can determine whether to trust its output.
Concept bottleneck modeling is one method that enables artificial intelligence systems to explain their decision-making process. These methods force a deep-learning model to use a set of concepts, which can be understood by humans, to make a prediction. In new research, MIT computer scientists developed a method that coaxes the model to achieve better accuracy and clearer, more concise explanations.
The concepts the model uses are usually defined in advance by human experts. For instance, a clinician could suggest the use of concepts like “clustered brown dots” and “variegated pigmentation” to predict that a medical image shows melanoma.
But previously defined concepts could be irrelevant or lack sufficient detail for a specific task, reducing the model’s accuracy. The new method extracts concepts the model has already learned while it was trained to perform that particular task, and forces the model to use those, producing better explanations than standard concept bottleneck models.
The approach utilizes a pair of specialized machine-learning models that automatically extract knowledge from a target model and translate it into plain-language concepts. In the end, their technique can convert any pretrained computer vision model into one that can use concepts to explain its reasoning.
“In a sense, we want to be able to read the minds of these computer vision models. A concept bottleneck model is one way for users to tell what the model is thinking and why it made a certain prediction. Because our method uses better concepts, it can lead to higher accuracy and ultimately improve the accountability of black-box AI models,” says lead author Antonio De Santis, a graduate student at Polytechnic University of Milan who completed this research while a visiting graduate student in the Computer Science and Artificial Intelligence Laboratory (CSAIL) at MIT.
He is joined on a paper about the work by Schrasing Tong SM ’20, PhD ’26; Marco Brambilla, professor of computer science and engineering at Polytechnic University of Milan; and senior author Lalana Kagal, a principal research scientist in CSAIL. The research will be presented at the International Conference on Learning Representations.
Building a better bottleneck
Concept bottleneck models (CBMs) are a popular approach for improving AI explainability. These techniques add an intermediate step by forcing a computer vision model to predict the concepts present in an image, then use those concepts to make a final prediction.
This intermediate step, or “bottleneck,” helps users understand the model’s reasoning.
For example, a model that identifies bird species could select concepts like “yellow legs” and “blue wings” before predicting a barn swallow.
But because these concepts are often generated in advance by humans or large language models (LLMs), they might not fit the specific task. In addition, even if given a set of pre-defined concepts, the model sometimes utilizes undesirable learned information anyway, which is a problem known as information leakage.
“These models are trained to maximize performance, so the model might secretly use concepts we are unaware of,” De Santis explains.
The MIT researchers had a different idea: Since the model has been trained on a vast amount of data, it may have learned the concepts needed to generate accurate predictions for the particular task at hand. They sought to build a CBM by extracting this existing knowledge and converting it into text a human can understand.
In the first step of their method, a specialized deep-learning model called a sparse autoencoder selectively takes the most relevant features the model learned and reconstructs them into a handful of concepts. Then, a multimodal LLM describes each concept in plain language.
This multimodal LLM also annotates images in the dataset by identifying which concepts are present and absent in each image. The researchers use this annotated dataset to train a concept bottleneck module to recognize the concepts.
They incorporate this module into the target model, forcing it to make predictions using only the set of learned concepts the researchers extracted.
Controlling the concepts
They overcame many challenges as they developed this method, from ensuring the LLM annotated concepts correctly to determining whether the sparse autoencoder had identified human-understandable concepts.
To prevent the model from using unknown or unwanted concepts, they restrict it to use only five concepts for each prediction. This also forces the model to choose the most relevant concepts and makes the explanations more understandable.
When they compared their approach to state-of-the-art CBMs on tasks like predicting bird species and identifying skin lesions in medical images, their method achieved the highest accuracy while providing more precise explanations.
Their approach also generated concepts that were more applicable to the images in the dataset.
“We’ve shown that extracting concepts from the original model can outperform other CBMs, but there is still a tradeoff between interpretability and accuracy that needs to be addressed. Black-box models that are not interpretable still outperform ours,” De Santis says.
In the future, the researchers want to study potential solutions to the information leakage problem, perhaps by adding additional concept bottleneck modules so unwanted concepts can’t leak through. They also plan to scale up their method by using a larger multimodal LLM to annotate a bigger training dataset, which could boost performance.
“I’m excited by this work because it pushes interpretable AI in a very promising direction and creates a natural bridge to symbolic AI and knowledge graphs,” says Andreas Hotho, professor and head of the Data Science Chair at the University of Würzburg, who was not involved with this work. “By deriving concept bottlenecks from the model’s own internal mechanisms rather than only from human-defined concepts, it offers a path toward explanations that are more faithful to the model and opens many opportunities for follow-up work with structured knowledge.”
This research was supported by the Progetto Rocca Doctoral Fellowship, the Italian Ministry of University and Research under the National Recovery and Resilience Plan, Thales Alenia Space, and the European Union under the NextGenerationEU project.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み