大規模言語モデルの相互作用の大規模識別
カリフォルニア大学バークレー校BAIRの研究者らは、大規模言語モデルの複雑な振る舞いを理解するための根本的な課題として「スケールにおける複雑さ」を指摘し、特徴帰属、データ帰属、機構的解釈可能性という複数の視点から分析の必要性を論じている。
キーポイント
LLM解釈可能性の根本的課題
大規模言語モデルの振る舞いは孤立したコンポーネントの結果ではなく、複雑な依存関係とパターンから「創発」するため、理解が困難である。
分析のための3つの視点
モデル理解には、予測を駆動する入力特徴を特定する「特徴帰属」、振る舞いを影響力のある学習例に結びつける「データ帰属」、内部コンポーネントの機能を解剖する「機構的解釈可能性」という3つのアプローチがある。
スケールにおける複雑さ
最先端の性能を達成するモデルは、複雑な特徴関係を統合し、多様な学習例から共有パターンを見出し、高度に相互接続された内部コンポーネントを通じて情報を処理するため、分析が困難である。
アブレーションによる影響の測定
入力の一部をマスクしたり、トレーニングデータのサブセットを使用したり、モデルの内部コンポーネントを除去したりすることで、予測の変化を測定し、意思決定の要因を特定する。
SPEXとProxySPEXの効率的な相互作用発見
信号処理と符号理論を応用し、影響力のある相互作用の数が実際には少ないという構造的観察を利用して、従来法よりも桁違いに大規模な相互作用を発見可能にする。
SPEXの理論的基盤
SPEXは、出力を駆動する相互作用が比較的少ないという「スパース性」と、影響力のある相互作用が特徴の小さな部分集合のみを含むという「低次数性」という2つの観察に基づいて、困難な探索問題を解決可能なスパース回復問題に再構築する。
ProxySPEXによる計算コストの大幅削減
ProxySPEXは、高次相互作用が重要であればその低次部分集合も重要であるという「階層性」という構造的特性を利用し、SPEXと同等の性能を約10分の1のアブレーション数で達成し、計算コストを劇的に改善する。
影響分析・編集コメントを表示
影響分析
この記事は、LLMのブラックボックス化が進む中で、その内部動作を理解するための研究フレームワークを整理し、根本的な課題を明確に指摘している。これは、より安全で信頼できるAIシステムの開発に向けた基礎研究として重要であり、今後の解釈可能性研究の方向性に影響を与える可能性がある。
編集コメント
LLMの解釈可能性という重要な研究領域の現状と根本課題を簡潔にまとめた良質な解説記事。具体的な解決策ではなく課題提起に焦点を当てている点が特徴。

*
*
複雑な機械学習システム、特に大規模言語モデル(LLM: Large Language Models)の振る舞いを理解することは、現代的人工知能における重要な課題です。解釈可能性研究は、モデル構築者や影響を受ける人々に対して意思決定プロセスをより透明なものにすることを目的としており、これはより安全で信頼性の高い人工知能への一歩となります。包括的な理解を得るためには、これらのシステムを異なる視点から分析することができます:予測を駆動する特定の入力特徴を切り離す特徴量帰属(feature attribution) (Lundberg & Lee, 2017; Ribeiro et al., 2022)、モデルの振る舞いを影響力のあるトレーニング例と結びつけるデータ帰属(data attribution) (Koh & Liang, 2017; Ilyas et al., 2022)、および内部コンポーネントの機能を分解するメカニズム解釈可能性(mechanistic interpretability) (Conmy et al., 2023; Sharkey et al., 2025) です。
これらの視点を通じて、同じ根本的な障壁が存在し続けています:*スケールにおける複雑性*です。モデルの振る舞いは、孤立したコンポーネントの結果であることはめったにありません。むしろ、それは複雑な依存関係とパターンから生じるものです。最先端のパフォーマンスを達成するために、モデルは複雑な特徴間の関係を統合し、多様なトレーニング例から共有されたパターンを見つけ、高度に相互接続された内部コンポーネントを通じて情報を処理します。
したがって、根拠のあるまたは現実検証型の解釈性手法も、これらの影響力ある相互作用を捉える必要があります。特徴数、トレーニングデータポイント数、モデルコンポーネント数が増大するにつれて、潜在的な相互作用の数も指数関数的に増加し、網羅的な分析は計算上不可能になります。本ブログ記事では、スケール上でこれらの重要な相互作用を特定できるアルゴリズムである SPEX および ProxySPEX の背後にある基本的なアイデアについて説明します。
除去による帰属
私たちのアプローチの中核を成すのは、アブレーション(除去)の概念です。これは、コンポーネントが削除された際に何が変わるかを観察することで影響力を測定する手法です。
- 特徴帰属:入力プロンプトの特定セグメントをマスクまたは削除し、予測結果の変化を測定します。
- データ帰属:トレーニングセットの異なるサブセットでモデルを訓練し、特定のトレーニングデータが存在しない場合にテストポイントに対するモデルの出力がどのように変化するかを評価します。
- モデル構成要素の寄与分析(メカニズム解釈可能性):モデルの順伝播に対して介入を行い、特定の内部コンポーネントの影響を除去することで、モデルの予測に責任を持つ内部構造がどれであるかを特定します。
いずれの場合も目的は同じです。つまり、システムを体系的に摂動させることで意思決定の駆動力を分離し、影響力のある相互作用を発見することを目指します。各アブレーション(除去実験)には、高価な推論呼び出しや再学習といった大きなコストがかかるため、私たちは可能な限り*最小限のアブレーション数*で寄与分析を計算することを目標としています。

- 入力の異なる部分をマスクし、元の出力とアブレーション後の出力との差分を測定します。
*
SPEX および ProxySPEX フレームワーク
扱い可能な数のアブレーションで影響力のある相互作用を発見するために、私たちは SPEX(スペクトル・エクスペラナー)を開発しました。このフレームワークは信号処理と符号理論に着想を得ており、先行手法よりも桁違いに大きなスケールで相互作用の発見を可能にします。SPEX は、総相互作用数は圧倒的に多い一方で、*影響力のある* 相互作用の数は実は非常に少ないという重要な構造的観察結果を利用することで、この課題を回避しています。
私たちはこれを2つの観察を通じて形式化します:スパース性(出力を真に駆動する相互作用は相対的に少ない)と低次数性(影響力のある相互作用は通常、特徴の小さなサブセットのみに関与する)。これらの性質により、困難な探索問題を解けるスパース復元問題へと再定式化できます。信号処理や符号理論からの強力なツールを活用し、SPEX は戦略的に選択されたアブレーションを用いて多数の候補相互作用を結合します。その後、効率的なデコーディングアルゴリズム(decoding algorithms)を使用して、これらの結合された信号を解きほぐし、モデルの振る舞いに関与する特定の相互作用を孤立させます。

後続のアルゴリズムである ProxySPEX において、複雑な機械学習モデルに共通するもう一つの構造的性質として階層性を特定しました。これは、高次の相互作用が重要である場合、その低次数のサブセットもまた重要である可能性が高いことを意味します。この追加的な構造的観察により、計算コストが劇的に改善され、SPEX と同等のパフォーマンスを約*10 分の 1 のアブレーション数*で達成できます。これら一連の枠組みは効率的な相互作用の発見を可能にし、特徴、データ、モデルコンポーネントの帰属における新たな応用を開拓します。
特徴量帰属
特徴アトリビューション手法は、モデルの出力に対する影響度に基づいて入力特徴に重要度スコアを割り当てます。例えば、LLM が医療診断を行うために使用される場合、このアプローチはモデルが結論に至るまでにどの症状が関与したかを特定できます。個々の特徴への重要性の帰属は価値がある一方で、洗練されたモデルの真の力は、特徴間の複雑な関係を捉える能力にあります。以下の図は、これらの影響力のある相互作用の例を示しています:左側では二重否定が感情を変化させる様子から、右側では RAG タスクにおける複数ドキュメントの必要な統合までです。

以下の図は、SPEX の感情分析タスクにおける特徴アトリビューションのパフォーマンスを示しています。私たちは、回復されたアトリビューションが未知のテスト用アブレーション(除去実験)に対するモデルの出力をどの程度正確に予測できるかを測る指標である「忠実度(faithfulness)」を用いてパフォーマンスを評価します。その結果、SPEX は短い入力においては既存の相互作用手法(Faith-Shap, Faith-Banzhaf)と同等の高い忠実度を達成しますが、文脈が数千の特徴にスケールする際にもこのパフォーマンスを独自に維持することがわかりました。一方、周辺的手法(LIME, Banzhaf)も同様の規模で動作可能ですが、モデルの出力を駆動する複雑な相互作用を捉えられないため、著しく低い忠実度を示します。

SPEX はまた、トロッコ問題の修正版にも適用されました。この修正版では問題の道徳的曖昧さが排除され、「True」が明確な正解となるように設定されています。以下の修正を加えた場合、GPT-4o mini は正答率わずか 8% しか示しませんでした。標準的な特徴寄与度解析(SHAP)を適用すると、誤った回答を引き起こす主要因として「trolley」という単語の個々の出現が特定されました。しかし、「tram」や「streetcar」などの同義語に置き換えても、モデルの予測にはほとんど影響がありませんでした。一方、SPEX ははるかに豊かな物語を明らかにしました。2 つの「trolley」の間、および「pulling」と「lever」という単語との間に支配的な高次相関(synergy)が存在することを特定したのです。この発見は、ジレンマの中核となる要素に関する人間の直感と一致しています。これら 4 つの単語を同義語に置き換えたところ、モデルの失敗率はほぼゼロまで低下しました。

データ寄与度解析
データ帰属分析は、モデルが新しいテストポイントに対して行う予測において、どのトレーニングデータポイントが最も責任を負っているかを特定するものです。これらのデータポイント間の影響力のある相互作用を特定することは、予期せぬモデルの挙動を説明する上で鍵となります。意味的な重複など冗長な相互作用は、特定の(そして誤りである可能性のある)概念を強化することがありますが、相乗的な相互作用は、単一のサンプルだけでは形成できない意思決定境界を定義するために不可欠です。
これを実証するため、CIFAR-10 で訓練された ResNet モデルに ProxySPEX を適用し、困難なテストポイントの多様性に対して、両方の相互作用タイプの最も顕著な例を特定しました。その結果を図に示します。

図に示すように、相乗的相互作用(左側)は、意思決定境界を定義するために意味的に異なるクラス同士が協力するケースによく見られます。例えば、人間の知覚に基づいてこの相乗性を説明すると、*自動車*(左下)は、スポーツカーの低めのシャーシや黄色いトラックの箱型形状、赤い配送車両の水平ストライプなど、提供されたトレーニング画像と視覚的な共通点を持っています。一方、冗長な相互作用(右側)は、特定の概念を強化する視覚的な重複部分を捉える傾向があります。例えば、*馬*という予測(中央右)は、類似したシルエットを持つ犬の画像群の影響を強く受けています。この微細な分析により、必要な相乗性を維持しつつ冗長性を安全に除去できる新しいデータ選択手法の開発が可能になります。
アテンションヘッド帰属(メカニズム解釈可能性)
モデル構成要素の帰属分析の目的は、特定の層やアテンションヘッドといったモデル内のどの内部部分が、特定の振る舞いに最も責任があるかを特定することです。ここでも ProxySPEX は、アーキテクチャの異なる部分間の責任ある相互作用を明らかにします。これらの構造的依存関係を理解することは、タスク固有のアテンションヘッドの剪定(pruning)のようなアーキテクチャへの介入において極めて重要です。MMLU データセット(高校アメリカ史)を用いた実験では、ProxySPEX に基づく剪定戦略が競合手法を上回るだけでなく、ターゲットタスクにおけるモデル性能を*実際に向上させる*ことができることを示しました。

このタスクにおいて、私たちはモデルの深さ全体にわたる相互作用構造も分析しました。その結果、初期層は主に線形領域で機能しており、ヘッドがターゲットタスクに対してほぼ独立して寄与していることが観察されました。一方、後期の層では、アテンションヘッド間の相互作用の役割がより顕著になり、貢献の大部分が同一層内のヘッド間での相互作用から生じていることがわかりました。

次のステップは?
SPEX フレームワークは、解釈可能性において大きな一歩を踏み出し、相互作用の発見対象を「数十」から「数千」のコンポーネントへと拡張しました。私たちは、このフレームワークがモデルライフサイクル全体にわたって多様に機能することを示しました:長文コンテキスト入力における特徴寄与度の探索、トレーニングデータポイント間の相乗効果と冗長性の特定、そして内部モデルコンポーネント間の相互作用の発見です。今後、機械学習システムをより包括的に理解するために、これらの異なる視点を「統合」することに関する多くの興味深い研究課題が残されています。また、ゲノミクスや材料科学などの既存の科学的知見に対して、相互作用発見手法を体系的に評価することも大きな関心事であり、モデルの発見結果を実証可能な基盤とするとともに、新たな検証可能な仮説を生み出すことに役立ちます。
私たちは、研究コミュニティの皆様がこの取り組みに参加することを歓迎します。SPEX および ProxySPEX のコードは完全に統合され、人気の高い SHAP-IQ リポジトリ(リンク)内で利用可能です。
- https://github.com/mmschlk/shapiq (SHAP-IQ Github)
- https://openreview.net/forum?id=KI8qan2EA7 (ProxySPEX NeurIPS 2025)
- https://openreview.net/forum?id=pRlKbAwczl (SPEX ICML 2025)
- https://openreview.net/forum?id=glGeXu1zG4 (Learning to Understand NeurIPS 2024)
原文を表示

**
*
*
Understanding the behavior of complex machine learning systems, particularly Large Language Models (LLMs), is a critical challenge in modern artificial intelligence. Interpretability research aims to make the decision-making process more transparent to model builders and impacted humans, a step toward safer and more trustworthy AI. To gain a comprehensive understanding, we can analyze these systems through different lenses: feature attribution, which isolates the specific input features driving a prediction (Lundberg & Lee, 2017; Ribeiro et al., 2022); data attribution, which links model behaviors to influential training examples (Koh & Liang, 2017; Ilyas et al., 2022); and mechanistic interpretability**, which dissects the functions of internal components (Conmy et al., 2023; Sharkey et al., 2025).
Across these perspectives, the same fundamental hurdle persists: *complexity at scale*. Model behavior is rarely the result of isolated components; rather, it emerges from complex dependencies and patterns. To achieve state-of-the-art performance, models synthesize complex feature relationships, find shared patterns from diverse training examples, and process information through highly interconnected internal components.
Therefore, grounded or reality-checked interpretability methods must also be able to capture these influential interactions. As the number of features, training data points, and model components grow, the number of potential interactions grows exponentially, making exhaustive analysis computationally infeasible. In this blog post, we describe the fundamental ideas behind SPEX and ProxySPEX, algorithms capable of identifying these critical interactions at scale.
Attribution through Ablation
Central to our approach is the concept of ablation, measuring influence by observing what changes when a component is removed.
- Feature Attribution: We mask or remove specific segments of the input prompt and measure the resulting shift in the predictions.
- Data Attribution: We train models on different subsets of the training set, assessing how the model’s output on a test point shifts in the absence of specific training data.
- Model Component Attribution (Mechanistic Interpretability): We intervene on the model’s forward pass by removing the influence of specific internal components, determining which internal structures are responsible for the model’s prediction.
In each case, the goal is the same: to isolate the drivers of a decision by systematically perturbing the system, in hopes of discovering influential interactions. Since each ablation incurs a significant cost, whether through expensive inference calls or retrainings, we aim to compute attributions with the *fewest possible ablations*.

**
*
Masking different parts of the input, we measure the difference between the original and ablated outputs.
*
SPEX and ProxySPEX Framework
To discover influential interactions with a tractable number of ablations, we have developed SPEX (Spectral Explainer). This framework draws on signal processing and coding theory to advance interaction discovery to scales orders of magnitude greater than prior methods. SPEX circumvents this by exploiting a key structural observation: while the number of total interactions is prohibitively large, the number of *influential*** interactions is actually quite small.
We formalize this through two observations: sparsity (relatively few interactions truly drive the output) and low-degreeness (influential interactions typically involve only a small subset of features). These properties allow us to reframe the difficult search problem into a solvable sparse recovery problem. Drawing on powerful tools from signal processing and coding theory, SPEX uses strategically selected ablations to combine many candidate interactions together. Then, using efficient decoding algorithms, we disentangle these combined signals to isolate the specific interactions responsible for the model’s behavior.

In a subsequent algorithm, ProxySPEX, we identified another structural property common in complex machine learning models: hierarchy. This means that where a higher-order interaction is important, its lower-order subsets are likely to be important as well. This additional structural observation yields a dramatic improvement in computational cost: it matches the performance of SPEX with around *10x fewer ablations*. Collectively, these frameworks enable efficient interaction discovery, unlocking new applications in feature, data, and model component attribution.
Feature Attribution
Feature attribution techniques assign importance scores to input features based on their influence on the model’s output. For example, if an LLM were used to make a medical diagnosis, this approach could identify exactly which symptoms led the model to its conclusion. While attributing importance to individual features can be valuable, the true power of sophisticated models lies in their ability to capture complex relationships between features. The figure below illustrates examples of these influential interactions: from a double negative changing sentiment (left) to the necessary synthesis of multiple documents in a RAG task (right).

The figure below illustrates the feature attribution performance of SPEX on a sentiment analysis task. We evaluate performance using *faithfulness*: a measure of how accurately the recovered attributions can predict the model’s output on unseen test ablations. We find that SPEX matches the high faithfulness of existing interaction techniques (Faith-Shap, Faith-Banzhaf) on short inputs, but uniquely retains this performance as the context scales to thousands of features. In contrast, while marginal approaches (LIME, Banzhaf) can also operate at this scale, they exhibit significantly lower faithfulness because they fail to capture the complex interactions driving the model’s output.

SPEX was also applied to a modified version of the trolley problem, where the moral ambiguity of the problem is removed, making “True” the clear correct answer. Given the modification below, GPT-4o mini answered correctly only 8% of the time. When we applied standard feature attribution (SHAP), it identified individual instances of the word *trolley* as the primary factors driving the incorrect response. However, replacing *trolley* with synonyms such as *tram* or *streetcar* had little impact on the prediction of the model. SPEX revealed a much richer story, identifying a dominant high-order synergy between the two instances of *trolley*, as well as the words *pulling* and *lever,* a finding that aligns with human intuition about the core components of the dilemma. When these four words were replaced with synonyms, the model’s failure rate dropped to near zero.

Data Attribution
Data attribution identifies which training data points are most responsible for a model’s prediction on a new test point. Identifying influential interactions between these data points is key to explaining unexpected model behaviors. Redundant interactions, such as semantic duplicates, often reinforce specific (and possibly incorrect) concepts, while synergistic interactions are essential for defining decision boundaries that no single sample could form alone. To demonstrate this, we applied ProxySPEX to a ResNet model trained on CIFAR-10, identifying the most significant examples of both interaction types for a variety of difficult test points, as shown in the figure below.

As illustrated, synergistic interactions (left) often involve semantically distinct classes working together to define a decision boundary. For example, grounding the synergy in human perception, the *automobile* (bottom left) shares visual traits with the provided training images, including the low-profile chassis of the sports car, the boxy shape of the yellow truck, and the horizontal stripe of the red delivery vehicle. On the other hand, redundant interactions (right) tend to capture visual duplicates that reinforce a specific concept. For instance, the *horse* prediction (middle right) is heavily influenced by a cluster of dog images with similar silhouettes. This fine-grained analysis allows for the development of new data selection techniques that preserve necessary synergies while safely removing redundancies.
Attention Head Attribution (Mechanistic Interpretability)
The goal of model component attribution is to identify which internal parts of the model, such as specific layers or attention heads, are most responsible for a particular behavior. Here too, ProxySPEX uncovers the responsible interactions between different parts of the architecture. Understanding these structural dependencies is vital for architectural interventions, such as task-specific attention head pruning. On an MMLU dataset (highschool‐us‐history), we demonstrate that a ProxySPEX-informed pruning strategy not only outperforms competing methods, but can actually *improve model performance on the target task*.

On this task, we also analyzed the interaction structure across the model’s depth. We observe that early layers function in a predominantly linear regime, where heads contribute largely independently to the target task. In later layers, the role of interactions between attention heads becomes more pronounced, with most of the contribution coming from interactions among heads in the same layer.

What’s Next?
The SPEX framework represents a significant step forward for interpretability, extending interaction discovery from *dozens to thousands of components*. We have demonstrated the versatility of the framework across the entire model lifecycle: exploring feature attribution on long-context inputs, identifying synergies and redundancies among training data points, and discovering interactions between internal model components. Moving forwards, many interesting research questions remain around *unifying* these different perspectives, providing a more holistic understanding of a machine learning system. It is also of great interest to systematically evaluate interaction discovery methods against existing scientific knowledge in fields such as genomics and materials science, serving to both ground model findings and generate new, testable hypotheses.
We invite the research community to join us in this effort: the code for both SPEX and ProxySPEX is fully integrated and available within the popular SHAP-IQ repository (link).
- https://github.com/mmschlk/shapiq (SHAP-IQ Github)
- https://openreview.net/forum?id=KI8qan2EA7 (ProxySPEX NeurIPS 2025)
- https://openreview.net/forum?id=pRlKbAwczl (SPEX ICML 2025)
- https://openreview.net/forum?id=glGeXu1zG4 (Learning to Understand NeurIPS 2024)
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み