過度に集約された機械学習メトリクスを超えることの重要性
MIT の研究者は、平均的な性能指標が信頼性を欺く可能性を指摘し、新環境でのモデル展開時に個々のデータ点ごとの評価が不可欠であることを示した。
キーポイント
集約されたメトリクスの危険性
平均的な性能が高くても、新しい環境では対象データの最大 75% で最悪のパフォーマンスを示すモデルが存在する可能性が実証された。
偽相関の持続的リスク
学習データでのパフォーマンス向上だけでは解消されず、背景や特定のマーキングなど無関係な特徴との偽相関が新環境で致命的な失敗を引き起こす。
医療診断における具体例
ある病院の X 線画像特有のマーキングを病理と誤学習したモデルは、そのマーキングがない別の病院では病気を見逃すリスクがある。
影響分析・編集コメントを表示
影響分析
この研究は、AI モデルの実装において「平均値」に依存する従来の評価基準の限界を鋭く指摘しており、医療や金融などリスクの高い分野でのモデル展開戦略に根本的な見直しを迫るものである。業界全体が、単なるベンチマークスコアの向上から、ドメイン適応性や個々のケースにおける堅牢性を重視した評価パラダイムへ移行する必要性が高まるだろう。
編集コメント
平均スコアに安心感を持つ開発者にとって、これは極めて警告的な内容です。新環境での展開前には、集約メトリクスだけでなく個々のケースごとの堅牢性テストを必須とするべきでしょう。
MITの研究者らは、機械学習モデルが訓練データとは異なるデータに適用された際に、モデルが重大な失敗を示す事例を特定しました。この発見は、モデルが新たな環境に導入される度にテストを行う必要性に疑問を投げかけています。
「大量のデータでモデルを訓練し、平均的に最良のモデルを選択した場合でも、新たな環境ではその『最良のモデル』が新規データの6〜75%に対して最悪のモデルになり得ることを実証しました」と、MIT電気工学・計算機科学科(EECS)准教授で、医学工学・科学研究所のメンバー、情報・意思決定システム研究所の主任研究員を務めるマルジエ・ガセミは述べています。
12月のNeural Information Processing Systems(NeurIPS 2025)カンファレンスで発表された論文で、研究者らは次のように指摘しています。例えば、ある病院の胸部X線画像から効果的に病気を診断するよう訓練されたモデルは、平均的には別の病院でも有効と見なされるかもしれません。しかし、研究者らの性能評価により、最初の病院で最高の性能を示した一部のモデルが、2番目の病院の患者の最大75%に対して最悪の性能を示すことが明らかになりました。2番目の病院の全患者を集計すると高い平均性能が得られるため、この失敗は見えにくくなっているのです。
彼らの発見は、擬相関(spurious correlation)――例えば、機械学習システムがビーチで撮影された牛の写真をあまり「見た」ことがないために、背景だけでその写真をシャチと分類してしまうような単純な例――が、観測データに対するモデルの性能を向上させるだけで緩和されると考えられてきたものの、実際には依然として発生し、新たな環境におけるモデルの信頼性に対するリスクとなり得ることを示しています。胸部X線、癌組織病理画像、ヘイトスピーチ検出など、研究者らが調査した分野を含む多くの事例において、このような擬相関の検出ははるかに困難です。
例えば、胸部X線画像で訓練された医療診断モデルは、ある病院のX線画像に特有の無関係な印字を、特定の疾患と相関付けることを学習したかもしれません。その印字を使用しない別の病院では、その疾患を見逃す可能性があります。
ガセミのグループによる以前の研究は、モデルが年齢、性別、人種などの要因を医学的所見と擬似的に相関付ける可能性があることを示しています。例えば、肺炎のある高齢者の胸部X線画像を多く訓練し、若年者のX線画像をあまり「見て」いないモデルは、肺炎があるのは高齢患者だけだと予測するかもしれません。
「我々は、モデルが患者の解剖学的特徴を観察し、それに基づいて判断する方法を学習することを望んでいます」と、MITのポスドク研究員で本論文の筆頭著者であるオラワレ・サラウディーンは述べています。「しかし実際には、判断と相関するデータ内のあらゆる要素がモデルに利用される可能性があります。そしてそれらの相関関係は、環境の変化に対して頑健ではないかもしれず、その結果、モデルの予測は意思決定の信頼できる根拠ではなくなってしまいます。」
擬相関は、偏った意思決定のリスクを高めます。NeurIPSカンファレンス論文で、研究者らは例えば、全体的な診断性能が向上した胸部X線モデルが、実際には胸膜疾患(pleural conditions)または心縦隔拡大(enlarged cardiomediastinum、心臓または胸部中央腔の拡大)を有する患者に対しては性能が悪化したことを示しました。
論文の他の著者には、博士課程学生のハオラン・チャンとクマイル・アルハモウド、EECS助教授のサラ・ビアリー、そしてガセミが名を連ねています。
これまでの研究では一般に、性能順(最良から最悪)に並べられたモデルは、新たな環境に適用された際にもその順序を維持する(accuracy-on-the-lineと呼ばれる)と受け入れられてきました。しかし研究者らは、ある環境で最高の性能を示したモデルが、別の環境では最悪の性能を示す事例を実証することに成功しました。
サラウディーンは、accuracy-on-the-lineが成り立たない事例を見つけるため、OODSelectというアルゴリズムを考案しました。基本的な手順は、分布内データ(in-distribution data、つまり最初の環境からのデータ)を用いて数千のモデルを訓練し、その精度を計算するというものです。次に、それらのモデルを2番目の環境からのデータに適用します。最初の環境のデータで最高の精度を示したモデルが、2番目の環境の事例の大部分で誤った判断を下した場合、これが問題のあるサブセット、すなわち部分母集団を特定することになります。サラウディーンはまた、評価における集計統計(aggregate statistics)の危険性を強調しています。集計統計は、モデル性能に関するより詳細で重要な情報を見えにくくする可能性があるからです。
研究過程において、研究者らは、データセット内の擬相関を、単に分類が困難な状況と混同しないよう、「最も誤分類された事例」を分離して扱いました。
NeurIPS論文は、研究者らのコードといくつかの特定されたサブセットを、将来の研究のために公開しています。
病院や機械学習を採用するあらゆる組織が、モデルの性能が低いサブセットを特定したならば、その情報を用いて、特定のタスクと環境に合わせてモデルを改善することができます。研究者らは、評価対象を明確にし、より一貫して性能を向上させる設計アプローチを取るために、将来の研究においてOODSelectを採用することを推奨しています。
「公開されたコードとOODSelectサブセットが、擬相関の悪影響に立ち向かうベンチマークとモデル開発への足がかりとなることを願っています」と研究者らは記しています。
原文を表示
MIT researchers have identified significant examples of machine-learning model failure when those models are applied to data other than what they were trained on, raising questions about the need to test whenever a model is deployed in a new setting.
“We demonstrate that even when you train models on large amounts of data, and choose the best average model, in a new setting this ‘best model’ could be the worst model for 6-75 percent of the new data,” says Marzyeh Ghassemi, an associate professor in MIT’s Department of Electrical Engineering and Computer Science (EECS), a member of the Institute for Medical Engineering and Science, and principal investigator at the Laboratory for Information and Decision Systems.
In a paper that was presented at the Neural Information Processing Systems (NeurIPS 2025) conference in December, the researchers point out that models trained to effectively diagnose illness in chest X-rays at one hospital, for example, may be considered effective in a different hospital, on average. The researchers’ performance assessment, however, revealed that some of the best-performing models at the first hospital were the worst-performing on up to 75 percent of patients at the second hospital, even though when all patients are aggregated in the second hospital, high average performance hides this failure.
Their findings demonstrate that although spurious correlations — a simple example of which is when a machine-learning system, not having “seen” many cows pictured at the beach, classifies a photo of a beach-going cow as an orca simply because of its background — are thought to be mitigated by just improving model performance on observed data, they actually still occur and remain a risk to a model’s trustworthiness in new settings. In many instances — including areas examined by the researchers such as chest X-rays, cancer histopathology images, and hate speech detection — such spurious correlations are much harder to detect.
In the case of a medical diagnosis model trained on chest X-rays, for example, the model may have learned to correlate a specific and irrelevant marking on one hospital’s X-rays with a certain pathology. At another hospital where the marking is not used, that pathology could be missed.
Previous research by Ghassemi’s group has shown that models can spuriously correlate such factors as age, gender, and race with medical findings. If, for instance, a model has been trained on more older people’s chest X-rays that have pneumonia and hasn’t “seen” as many X-rays belonging to younger people, it might predict that only older patients have pneumonia.
“We want models to learn how to look at the anatomical features of the patient and then make a decision based on that,” says Olawale Salaudeen, an MIT postdoc and the lead author of the paper, “but really anything that’s in the data that’s correlated with a decision can be used by the model. And those correlations might not actually be robust with changes in the environment, making the model predictions unreliable sources of decision-making.”
Spurious correlations contribute to the risks of biased decision-making. In the NeurIPS conference paper, the researchers showed that, for example, chest X-ray models that improved overall diagnosis performance actually performed worse on patients with pleural conditions or enlarged cardiomediastinum, meaning enlargement of the heart or central chest cavity.
Other authors of the paper included PhD students Haoran Zhang and Kumail Alhamoud, EECS Assistant Professor Sara Beery, and Ghassemi.
While previous work has generally accepted that models ordered best-to-worst by performance will preserve that order when applied in new settings, called accuracy-on-the-line, the researchers were able to demonstrate examples of when the best-performing models in one setting were the worst-performing in another.
Salaudeen devised an algorithm called OODSelect to find examples where accuracy-on-the-line was broken. Basically, he trained thousands of models using in-distribution data, meaning the data were from the first setting, and calculated their accuracy. Then he applied the models to the data from the second setting. When those with the highest accuracy on the first-setting data were wrong when applied to a large percentage of examples in the second setting, this identified the problem subsets, or sub-populations. Salaudeen also emphasizes the dangers of aggregate statistics for evaluation, which can obscure more granular and consequential information about model performance.
In the course of their work, the researchers separated out the “most miscalculated examples” so as not to conflate spurious correlations within a dataset with situations that are simply difficult to classify.
The NeurIPS paper releases the researchers’ code and some identified subsets for future work.
Once a hospital, or any organization employing machine learning, identifies subsets on which a model is performing poorly, that information can be used to improve the model for its particular task and setting. The researchers recommend that future work adopt OODSelect in order to highlight targets for evaluation and design approaches to improving performance more consistently.
“We hope the released code and OODSelect subsets become a steppingstone,” the researchers write, “toward benchmarks and models that confront the adverse effects of spurious correlations.”
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み