英国の肝臓移植マッチングアルゴリズムは若年層を体系的に除外しているか?
イギリスの肝移植マッチングアルゴリズムが年齢による差別を生み、若年層の患者が治療を受けられない深刻な事例を分析し、予測モデルの倫理的限界と実装の欠陥を指摘している。
キーポイント
アルゴリズムの仕組みと予期せぬ結果
2018 年に導入されたイギリスの肝移植システムは、患者が移植を受けた場合と受けなかった場合の生存期間差(TBS)を予測して優先順位を決めるが、実際には若年層が排除される逆の結果を招いている。
予測 AI 使用の正当性への問い
臓器不足という限られた資源を効率的に配分する必要性はあるものの、不確実な予測に基づいて人間の自由や生命を決定すること自体の倫理的根拠が問われている。
バイアス以外の根本的欠陥
議論は単なるアルゴリズムのバイアスに留まらず、予測ロジックそのものが持つ構造的な欠陥や、人間判断では処理しきれない規模での意思決定におけるリスクが浮き彫りになっている。
解決策と今後の方向性
アルゴリズムの修正可能性、あるいは臓器提供率向上による供給量拡大など、予測モデルに依存しない代替案やシステム全体の再構築が必要であるという視点が提示されている。
AI アルゴリズムの複雑性とブラックボックス化
新しいシステムは疾患重症度だけでなく移植の利益も考慮し、28の変数を用いたデータ駆動型最適化プロセスに基づいているが、医師や患者には理解不能な「ブラックボックス」となっている。
アルゴリズムの正当性と効果
犯罪予測に比べて健康成果の方が予測可能であるためこの複雑さは妥当であり、追跡調査では旧システムよりも多くの命を救うことが確認されている。
FT 調査が指摘するバイアスと患者の苦悩
Financial Times の調査は、アルゴリズムの存在や仕組みを医師も理解していない状況で、異議申し立てや医師による上書きができないまま患者の運命が決まる実態を明らかにした。
影響分析・編集コメントを表示
影響分析
この記事は、医療現場におけるアルゴリズムの導入が単なる効率化ツールではなく、生命の格差を生む可能性のある倫理的ジレンマを内包していることを浮き彫りにしました。特に「予測」そのものの限界と、それが社会的不平等に直結するリスクを指摘しており、AI 倫理や医療政策の分野で重要な示唆を与えています。
編集コメント
技術の導入が「効率化」に終始せず、いかにして公平性と倫理を担保するかという本質的な問いを投げかける重要な論考です。医療現場における AI のあり方を再考する上で必読と言えます。
アルヴィンド・ナラヤナン、アンジェリーナ・ワン、サイヤシュ・カプール、ソロン・バロコス による
予測アルゴリズムは数多くの生死を分ける場面で利用されています。論文『Against Predictive Optimization』において、私たちは人々に関する意思決定に予測論理を用いることには反復して現れる本質的な欠陥があり、多くの場合で拒絶されるべきだと主張しました。
痛ましい事例研究が英国の肝臓配分アルゴリズムから出ています。このアルゴリズムは年齢による差別を行っているように見え、いかに病状が悪化しても、一部の若年患者には移植を受けられないようです。ここで何が間違っていたのでしょうか?修正可能なのでしょうか?それとも医療システムは肝臓移植のマッチングにアルゴリズムを使用することを避けるべきなのでしょうか?
肝臓配分アルゴリズムの仕組みについて
英国は2018年に肝臓移植システムを国営化し、病状の重症度に基づいて肝臓が優先されていた従来の地域別システムを置き換えました。1 肝臓が利用可能になった際、新しいアルゴリズムは予測論理を用いて、全国待機リスト上の各患者がその肝臓を与えられた場合にどの程度恩恵を受けるかを計算します。
具体的には、このアルゴリズムは、患者にその肝臓が与えられた場合の生存期間と、移植を受けなかった場合の生存期間をそれぞれ予測します。両者の差が患者の「移植便益スコア(Transplant Benefit Score: TBS)」です。患者はこのスコアの降順で並べ替えられ、最上位の患者に肝臓が提供されます(もしその患者が拒否した場合、次位の患者に提供され、以下同様に続きます)。
この説明を踏まえると、移植によって高齢患者に比べてはるかに多くの人生の数十年を獲得できる可能性がある若年層の患者がアルゴリズムによって優先されるべきだと予想されます。もしアルゴリズムが逆の効果をもたらすのであれば、スコアが不正確に表現されているか、計算が誤っているかのどちらかです。どちらであるかは後ほど確認しましょう。その前に、より基本的な問いについて議論してみましょう。
なぜ予測 AI が必要なのでしょうか?
アルゴリズムによる意思決定の倫理に関する議論は往々にしてバイアスに焦点を絞りすぎ、そもそもアルゴリズムを使用することが正当化されるのかという根本的な問いを見落としています。例えば、刑事司法システムにおける裁判前リスク予測を考えてみましょう。バイアスは確かに深刻な懸念事項ですが、より深い問いとして、有罪判決ではなく将来の行動に関する予測に基づいて被告人の自由を剥奪することが道徳的に正当化されるのか、特にその予測が単なるコイン投げと大差ない精度しかない場合において、それが正当化されるのかという問題があります。
臓器移植は多くの点で異なります。医療システムは非常に限られた貴重な資源を効率的かつ倫理的に利用する必要があり、正当な理由を持つ多くの人々に対してそれを配分する何らかの原則的な方法を確立しなければなりません。そこには数千もの潜在的な受容者がおり、臓器が利用可能になった際には迅速に決定を下す必要があります。人間の判断ではスケーラビリティ(拡張性)が保てません。
予測アルゴリズムの必要性を回避しようとする別の方法は、臓器のプールを増やして、もはやそれほど希少ではなくなるようにすることです。人々に臓器提供への登録を促すことは確かに重要です。しかし、肝臓の供給が制約でなくなっても、特定の肝臓からどの患者が最も恩恵を受けるかを予測することは依然として有用でしょう。
時には、単純な統計式が、予測 AI のメリットのほとんどを提供しつつ、欠点なしに機能します。実際、英国の以前の肝移植システムは、いくつかのマーカーの血液レベルに基づいた、病状の重症度を予測するための比較的シンプルな式である「UK 末期肝疾患スコア」に基づいていました。新しいシステムでは、病状の重症度に加えて、移植による恩恵も考慮されます。また、これはよりブラックボックス化されています。これはデータ駆動型の最適化プロセスから導き出され、医師や患者が頭の中で理解するには複雑すぎるという意味で「AI」と呼ばれます。予測にはドナーと受容者からの 28 の変数が使用されます。
少なくともこの文脈では、この複雑さが正当化されている可能性は十分にあります。なぜなら、健康アウトカムは犯罪を犯す人を予測するよりもはるかに予測可能だからです(ただし、これは疾患によって異なります)。フォローアップ研究により、マッチングアルゴリズムが実際に、置き換えられたシステムよりも多くの命を救っていることが確認されています。
したがって、アルゴリズムの使用に反対する根拠を最初から示す必然性があるわけではありません。むしろ、何が間違っていたのかという詳細を検討する必要があります。それらの詳細を見ていきましょう。
フィナンシャル・タイムズの調査
2023 年 11 月、フィナンシャル・タイムズ(Financial Times)はアルゴリズムにおけるバイアスに関する衝撃的な調査記事を掲載しました。この調査の中心には、嚢胞性線維症を含む複数の遺伝性疾患を抱える 31 歳の患者サラ・マーティデッド(Sarah Meredith)がいます。記事では、彼女が移植適応度スコア(Transplant Benefit Score: TBS)アルゴリズムが存在し、自らの運命を決定するものであることを偶然発見した経緯や、その仕組みを理解しようとする苦闘、肝臓担当医がこのアルゴリズムについて基本的な知識さえ持っていなかったこと、そして TBS スコアに対する医師による上書き権限も異議申し立て手続きもないことに気づいた事実が描かれています。
彼女が説明を求めて国民保健サービス(National Health Service)に問い合わせた際、繰り返し「理解できないだろう」と言われました。どうやら、医療システムの父権主義とアルゴリズムの不可解さという神話との組み合わせは、特に有害な混合であるようです。
メアリディは最終的に、TBS(トランスプラント・バイアス・スコア)を計算するウェブアプリに行き着きました。これはエウェン・ハリソン教授とそのチームによって開発されたものです。彼は外科医でありデータサイエンティストで、TBS を研究しており、同アルゴリズムのいくつかの失敗に関する研究の共著者でもあります。このアプリを通じて、メアリディはアルゴリズムがいかに偏っているかを理解しました。また、これはアルゴリズムによる意思決定の不透明性が神話に過ぎない理由も示しています:内部構造を理解していなくても、システムの振る舞いを理解するのは容易です。特に、特定の患者が関心を持つのはシステムが特定の状況下でどのように振る舞うかという一点に限られるからです。
しかし、これは単なる一人の患者の体験談ではありません。『フィナンシャル・タイムズ』の記事より:
「45 歳未満であれば、いかに病状が悪くても、リスト上で優先順位を得るのに十分なスコアを獲得することは不可能です」と語るのは、同国最大の肝移植センターの一つを有するバーミンガム大学の顧問肝臓専門医であるパラク・トリヴェディ氏です。
ついに、2024 年に『ランセット』誌で発表された研究が、このアルゴリズムが若年患者に対して深刻な偏見を持っていることを確認しました。3
患者団体は偏見について警告
マッチングシステムの目的は、移植によって最も寿命を延ばすことができる受容者を特定することです。これを実現する明白な方法は、各患者の移植あり・なしにおける予想生存時間を予測することですが、アルゴリズムがほぼそれを行っているものの、完全にはそうではありません。実際には、各患者の移植あり・なしにおける 5 年生存率を予測しています。
この方法には明らかな問題があります。ある患者グループは、2015 年に公式な経路を通じて、このアルゴリズムが施行されるずっと前に以下のフィードバックを提供しました:
5 年間の生存率を上限とする措置は、実際には若年患者の利益を減殺するものであり、生涯にわたる総利益ではなく 5 年間の予測による生涯獲得年数を過小評価しているためである。現在のシステムでは、小児および小柄な成人患者が、国の優先事項として小柄な成人用肝臓へのアクセスを得られる恩恵を受けている。しかし、若年成人は他のすべての成人患者と直接競争しなければならない。提案されたモデルでは、若年患者の死亡が、高齢の成人患者の死亡と比較して、より多くの予想される生存年数の喪失を伴うという認識がない。また、待機期間が長いことが、若年患者のキャリアや家族、社会への貢献といった見通しに与える影響についても、高齢の成人患者との比較において認識されていない。若年患者はまだ人生を送る機会を得ておらず、彼らの利益を計算するために適用される規則によって、待機リスト上の若年患者というコホートがどのように影響を受けるかについて考慮すべきである。
これがアルゴリズムの行動につながる原因である。若年患者は(正しく)5 年間移植なしで生存する可能性が高く、また 5 年間移植ありで生存する可能性も高齢患者と同程度であると予測される。したがって、若年患者の予測されるネット利益(5 年間の期間における)は、高齢患者に比べてはるかに小さい。彼らの人生全体を通じて見れば、若年患者の方がより大きな恩恵を受ける可能性が高いが、アルゴリズムはこの点を考慮していない。
ターゲット変数を見せれば、問題も示しましょう
2018 年のアルゴリズムのバージョン 1 および 2022 年のバージョン 2(がん患者に対するバイアスを修正した)においてなぜこの問題が見過ごされたのかは明確ではありません。おそらく開発者は年齢によるバイアスの深刻さを認識していなかったのでしょう。2024 年に発表されたアルゴリズムに関する論文においても、5 年間の上限を含む多くの限界について簡潔に言及されているにもかかわらず、その上限が若年患者の優先度を下げるものであるという記述はありません。
一方、特徴量(ドナーおよびレシピエントの特徴)のリストは、システムに関する公的なコミュニケーションにおいて目立って列挙され、議論されています。これは、アルゴリズム、特にその潜在的な差別的影響を理解する方法として、特徴量すなわち入力となるリストを見るべきだという誤解を反映している可能性があります。実際には、公平性にとって重要なのは特徴量よりも、ターゲット変数すなわち出力であることがほとんどです。
残念ながら、この重要な事実は技術コミュニティの外ではほとんど認識されておらず(技術コミュニティ内でも時折例外ですが)、代わりに敏感変数(年齢、人種、性別など)やその代理変数を特徴量のリストから削除することに狭隘な焦点が当てられています。しかし、これは通常無効であり、むしろ逆効果となることさえあります。
5 年という期間の選択は、データの入手可能性によるものと思われます:「このフォローアップ期間は、データが容易に入手可能であった一方で、より長いフォローアップは不可能であったため、選択されました」。私たちの経験では、関心のある真の構成要素(コンストラクト)を正確に測定することを妨げる困難が常にほぼ存在するため、これが『予測最適化への反対』論文で私たちが指摘する繰り返される欠陥の一つとなっています。これはターゲットと構成要素の不整合です。なぜなら、予測されているもの(ターゲット)は、実際に予測したいもの(構成要素)とは異なるからです。
事態はさらに悪化します
上限の設定により、移植を受けたほとんどの患者グループの期待生存期間はほぼ同じ(約 4.5 年)となります。これは、移植後 5 年で約 85% の患者が生存しているという事実を反映しています。したがって、移植の効用は高いものの、ほぼ均一に高いため、スコアに実際に影響を与える要素とはなりません。実は、このアルゴリズムは主に必要性(ニーズ)の評価、つまり移植を受けなかった場合に患者がどの程度生存できるかを評価するものとなっているのです。
これは皮肉なことです。なぜなら、このシステムを以前のシステムよりも使用する主な理由として、移植後の生存期間のモデリングが主張されていたからです。もしこれがより多くの人々の死を防いでいるのであれば、それは単に必要性の評価においてより優れた仕事をしているため、および/またはアルゴリズムの使用が地域システムから全国システムへの移行と重なった結果、以前にサービスが行き届いていなかった地域の高いニーズを持つ患者により適切に対応できるようになったためであると推測されます。
このシステムが掲げた目標を達成するのがあまり得意ではないという事実は、アルゴリズムが開発されてから約 10 年後になってようやく報告されたように思える(ただし振り返れば、導入前に実行されたシミュレーションの結果には明確な兆候があった)。具体的には、そのアルゴリズムに関する論文のコメントと回答セクションで指摘されている。隠蔽性の観点から見れば、これは学術界におけるウィキペディアの「議論」ページに相当するものであり、一般大衆のほとんどはそんなものが存在することさえ知らないだろう。
アルゴリズム的な不合理:がんが生存率を向上させる
上記論文の著者たちは、このアルゴリズムに含まれる 2 つのモデル(移植後生存)のうち一方があまり機能していないように見えることに言及しているが、彼らの主な論点はもう一方のモデル、つまり待機リスト上での生存を予測することで必要性を評価するモデルに関するものである。彼らは、他の条件が等しい場合、がん患者の方が非がん患者よりも長く生存するとこのモデルは予測することを示した。このような現象は「アルゴリズム的な不合理」と呼ばれることがあり、常識に基づけば人間にとって明らかに誤りであるように思われる。
がんを持つ患者に関する予測は単なる珍奇な事例ではなく、患者の人生に大きな影響を及ぼすものである:「TBS 制度(COVID-19 のために TBS の提供が中断された期間を除く)の最初の 3 年間において、がん患者が TBS モデルによって肝臓を割り当てられることはほとんどなかった」。これが 2022 年のアルゴリズム改訂につながったのである。
この発見は、数十年前に起きたよく知られた失敗を思い起こさせます。あるモデルは、喘息患者が肺炎から合併症を発症するリスクが低いと予測しました。幸いにも、このモデルが導入される前に問題が発見されました。実際にはデータ内の正しいパターンだったのですが、それは喘息患者が集中治療室(ICU)に送られ、そこでより良いケアを受けていたためでした。もちろん、その政策を置き換えて、喘息患者を低リスクとみなす機械学習(ML)モデルを採用していたら、大惨事になっていたでしょう。この事例研究は、ブラックボックスモデルよりも解釈可能なモデルの有用性を示す教科書的な例となっています。研究者がモデルの係数を容易に検討できる場合、不自然な挙動はより明確に現れます。
TBS は解釈可能な回帰モデルを使用しています。しかし、実際には2つの異なるモデルセットが存在します。1つはがん患者向けのものであり、もう1つは非がん患者向けです。これは両グループが異なるデータソースによって代表されているためです。これが、アルゴリズムの不合理な振る舞いが生じた理由を説明するものです。患者集団が異なるからです。おそらく、がん患者が抽出された集団の方が、年齢的に若いか、あるいは他の点でより健康だった可能性があります。もちろん、特定の患者を非がんからがんへと切り替えることで予測生存率が上昇するというアルゴリズムの振る舞いを正当化するものではありません。2つの異なるモデルセットが存在する事実は、なぜこの問題が長期間検出されなかったのかを説明している可能性もあります。問題は回帰係数からは明白ではなく、患者集団をシミュレーションすることで初めて検出できるのです。
功利主義的倫理への居眠り運転
予測ロジックは、功利主義的世界観(最大多数の最大幸福)を内包してしまいます。これにより、「受給に値する」という概念を組み込むことが困難になります。多くの人は、自身のコントロール外の要因によって状態が悪化した患者の方が、支援を受ける価値がより高いという強い道徳的直感を持っています。『フィナンシャル・タイムズ』の記事から:
⟦CODE_0⟧
トレビディ(肝臓専門医)は、若年患者に対するバイアスが発見されたことについて特に不公平だと指摘しました。なぜなら、若い人々は生まれつき肝疾患を抱えているか、子供時代に発症する傾向がある一方、高齢患者の多くはアルコール摂取などの生活習慣に起因する慢性肝疾患を発症するためです。
ドナーの意向も軽視されています。例えば、おそらく一部のドナーは自分たちのコミュニティにいる人を助けたいと考えるでしょう。しかし、功利主義的な世界観においては、これは単なる地理的差別とみなされます。(私たちが言いたいのは、 deservingness やドナーの意向が重要な考慮事項かどうかではなく、アルゴリズムが倫理的枠組みを決定しているという点です。)
従来、個別の医師は形式的な推論や説明責任を伴わずに移植に関する判断を下していました。しかし、臓器移植のルーチン化と規模の拡大、そして全国規模のマッチングシステムへの移行により、手動でのマッチングはもはや現実的ではありません。自動化によって意思決定者はマッチング基準を明確にするよう迫られました。この形式化は、 precisely specified policies(厳密に指定された政策)の賛否について倫理的議論を行うことを可能にするため、良いことになり得ます。
しかし、自動化は計算しやすい功利主義を優遇する結果となりました。功利主義以外の考慮事項は定量化に抵抗を示します。アルコールを摂取した患者に対してどの程度のペナルティを適用するかを決定する責任を負う委員会など、誰も望まないでしょう。また、どのような選択を下しても激しい反対に直面することになります。一方、データ駆動型の意思決定という外見は多くの規範的な選択を隠蔽しているにもかかわらず、意思決定者間で合意形成を可能にし、無限の議論なしにアルゴリズムを導入することを許容します。
このため、功利主義は過去数十年にわたり、医療倫理や公衆衛生を含む多くの分野で優勢となってきました。
肝臓マッチングアルゴリズムが生命年(albeit poorly)を最適化しようとする一方で、他のアルゴリズムや機関はさらに一歩進み、「質調整済み」生命年を最適化します。これには、個人がいかにして日常生活のタスクを完了できるか、またどの程度の痛みを抱えているかなどを考慮に入れます。質調整には、障害を持つ人々への優先度を下げるという副作用があります。
全体的に、私たちは功利主義的論理へのこの移行自体を必ずしも反対しているわけではありません。しかし、それが単なる利便性のためではなく、民主的なプロセスの結果として行われる場合にのみ採用されるべきだと考えています。尻尾が犬を振るようなことはあってはなりません。多くの国で多くの臓器において、国民化された移植システムへの広範な移行とその背後にある倫理的論理について、一般大衆がどの程度認識しているかは明確ではありません。私たちが議論してきたような特定のシステムに関する公衆の意見は、根本的な道徳的枠組みについての広範な社会的合意に代わるものではありません。また、この議論を医療倫理学の文献の中に閉じ込めておくべきでもありません。
次に何をするか
肝臓配分アルゴリズムは、イギリスの公的資金による医療システムである国民保健サービス(NHS)によって開発され、運用されています。私たちは以前の本ニュースレターで、公共部門機関がアルゴリズム意思決定システムを不透明で利益指向型の企業にアウトソースした場合に悪い結果が生じることを説明しました。しかし、今回のケースはそうではありません。開発者たちは命を救うために最善を尽くしています。このシステムには多くの思考と配慮が注がれており、公衆からの意見も反映されています。もし誤りがあったとしても、それは問題の難しさに起因するものです。
肝臓配分アルゴリズムには、対処可能かつ対処すべき明確な問題が存在します。年齢バイアスを緩和する方法は少なくとも三つあります。第一に、より多く、より質の高いデータを収集することです。第二に、アルゴリズムのスケールに指を添えて、受容者の年齢分布が社会の規範的理想と概ね一致するように保証することです。これは、制約付き最適化問題(アルゴリズムの公平性に関する多くの論文でこの手法が示されています)を定式化することで達成できます。第三に、年齢を要因として使用しないことです。上記の理由から私たちはこのアプローチを好んでいませんが、非専門家に対してはより容易に正当化できるかもしれません。
肝臓諮問グループ(Liver Advisory Group)は変更を実行する権限を持つ団体です。メンバーは六ヶ月ごとに会合を開きます。残念ながら、彼らは 2024 年 5 月の会議の議事録をまだアップロードしていないため、彼らが注意を払っているかどうかは不明です。
より深層的なシステム的問題への対応は困難になります——医療倫理における不十分な透明性と公衆参加の問題です。医療意思決定における AI の急速な導入には、社会全体での倫理的議論が必要です。これは特定のアルゴリズムに関する話ではなく、その有効性およびしたがって正当性を主張する背後にある検証されていない仮定の束に関するものです。遅れるに越したことはありません。
医療の枠を超えて、予測的決定プロセスを異なる分野で適用する際に生じる落とし穴は、互いに驚くほど類似した特徴を持っています。これは、これらの欠陥を回避するためのさらなる研究と、異なる分野から集まり相互に学び合う実践者のコミュニティの必要性を示唆しています。公平性・説明責任・透明性に関する会議(Fairness, Accountability, and Transparency)のような場は、こうした横断的なグループを集結させることができます。
さらに読むべき文献
集団の健康管理に用いられるアルゴリズムにおける人種バイアスを解剖する論文は、誤った目的変数の使用が深刻なバイアスをもたらすことを明らかにした古典的な研究です。
『Voices in the Code』は、米国における腎臓移植マッチングアルゴリズムの開発を詳細に記述した優れた書籍です。それは
原文を表示
By Arvind Narayanan, Angelina Wang, Sayash Kapoor, and Solon Barocas
Predictive algorithms are used in many life-or-death situations. In the paper Against Predictive Optimization, we argued that the use of predictive logic for making decisions about people has recurring, inherent flaws, and should be rejected in many cases.
A wrenching case study comes from the UK’s liver allocation algorithm, which appears to discriminate by age, with some younger patients seemingly unable to receive a transplant, no matter how ill. What went wrong here? Can it be fixed? Or should health systems avoid using algorithms for liver transplant matching?
How the liver allocation algorithm works
The UK nationalized its liver transplant system in 2018, replacing previous regional systems where livers were prioritized based on disease severity.1 When a liver becomes available, the new algorithm uses predictive logic to calculate how much each patient on the national waiting list would benefit from being given that liver.
Specifically, the algorithm predicts how long each patient would live if they were given that liver, and how long they would live if they didn’t get a transplant. The difference between the two is the patient’s Transplant Benefit Score (TBS). Patients are sorted in decreasing order of the score, and the top patient is offered the liver (if they decline, the next patient is offered, and so on).
Given this description, one would expect that the algorithm would favor younger patients, as they will potentially gain many more decades of life through a transplant compared to older patients. If the algorithm has the opposite effect, either the score has been inaccurately portrayed or it is being calculated incorrectly. We’ll see which one it is. But first, let’s discuss a more basic question.
Why is predictive AI even needed?
Discussions of the ethics of algorithmic decision making often narrowly focus on bias, ignoring the question of whether it is legitimate to use an algorithm in the first place. For example, consider pretrial risk prediction in the criminal justice system. While bias is a serious concern, a deeper question is whether it is morally justified to deny defendants their freedom based on a prediction of what they might do rather than a determination of guilt, especially when that prediction is barely more accurate than a coin flip.
Organ transplantation is different in many ways. The health system needs to make efficient and ethical use of a very limited and valuable resource, and must find some principled way of allocating it to many deserving people, all of whom have reasonable claims for why they should be entitled to it. There are thousands of potential recipients, and decisions must be made quickly when an organ becomes available. Human judgment doesn’t scale.2
Another way to try to avoid the need for predictive algorithms is to increase the pool of organs so that they are no longer as scarce. Encouraging people to sign up for organ donation is definitely important. But even if the supply of livers is no longer a constraint, it would still be useful to predict which patient will benefit the most from a specific liver.
Sometimes simple statistical formulas provide most of the benefits of predictive AI without the downsides. In fact, the previous liver transplant system in the UK was based on a relatively simple formula for predicting disease severity, called the UK End-stage Liver Disease score, which is based on the blood levels of a few markers. The new system takes into account the benefit of transplantation in addition to disease severity. It is also more of a black box. It is “AI” in the sense that it is derived from a data-driven optimization process and is too complex to be mentally understood by doctors or patients. It uses 28 variables from the donor and recipient to make a prediction.
It seems at least plausible that this complexity is justified in this context because health outcomes are much more predictable than who will commit a crime (though this varies by disease). Follow-up studies have confirmed that the matching algorithm does indeed save more lives than the system that it replaced.
So there isn’t necessarily a prima facie case for arguing against the use of the algorithm. Instead, we have to look at the details of what went wrong. Let’s turn to those details.
The Financial Times investigation
In November 2023, the Financial Times published a bombshell investigation about bias in the algorithm. It centers on a 31 year old patient, Sarah Meredith, with multiple genetic conditions including cystic fibrosis. It describes her accidental discovery that the Transplant Benefit Score algorithm even existed and would decide her fate; her struggle to understand how it worked; her liver doctors’ lack of even basic knowledge about the algorithm; and her realization that there was no physician override to the TBS score and no appeals process.
When she reached out to the National Health Service to ask for explanations, Meredith was repeatedly told she wouldn’t understand. It seems that the paternalism of health systems combined with the myth of the inscrutability of algorithms is a particularly toxic mix.
Meredith eventually landed on a web app that calculates the TBS, built by Professor Ewen Harrison and his team. He is a surgeon and data scientist who has studied the TBS, and is a co-author of a study of some of the failures of the algorithm. It is through this app that Meredith realized how biased the algorithm is. It also shows why the inscrutability of algorithmic decision making is a myth: even without understanding the internals, it is easy to understand the behavior of the system, especially given that a particular patient only cares about how the system behaves in one specific instance.
But this isn’t just one patient’s experience. From the Financial Times piece:
“If you’re below 45 years, no matter how ill, it is impossible for you to score high enough to be given priority scores on the list,” said Palak Trivedi, a consultant hepatologist at the University of Birmingham, which has one of the country’s largest liver transplant centres.
Finally, a 2024 study in The Lancet has confirmed that the algorithm has a severe bias against younger patients.3
Patient groups warned about the bias
The objective of the matching system is to identify the recipient whose life expectancy would be increased the most through the transplant. The obvious way to do this is to predict each patient’s expected survival time with and without the transplant. This is almost what the algorithm does, but not quite — it predicts each patient’s likelihood of surviving 5 years with and without the transplant.
The problem with this is obvious. A patient group gave this feedback through official channels in 2015, long before the algorithm went into effect:
Capping survival at five years in effect diminishes the benefits for younger patients as it underestimates the gain in life years by predicting lifetime gain over 5 years, as opposed to the total lifetime gain. Paediatric and small adult patients benefit from accessing small adult livers as a national priority in the Current System. However, young adults must compete directly with all other adult patients. In the proposed model, there is no recognition that a death in a younger patient is associated with a greater number of expected years of life lost compared with the death of an older adult patient. There is also no recognition that longer periods waiting has an impact on younger patients’ prospects, such as career and family, and contribution to society compared with older adult patients. Younger patients have not yet had the chance to live their lives and consideration should be given to how the cohort of younger waiting list patients is affected by rules applied to calculate their benefit.
This is what leads to the algorithm’s behavior. Younger patients are (correctly) predicted to be more likely to survive 5 years without a transplant, and about as likely as older patients to survive 5 years with a transplant. So younger patients’ predicted net benefit (over a 5-year period) is much less than older patients’. Over the entire course of their lives, younger patients would likely benefit more, but the algorithm doesn’t take this into account.
Show us the target variable and we’ll show you the problem
It is not clear why the problem was ignored, both in version 1 of the algorithm in 2018 and in version 2 in 2022 which corrected a bias against cancer patients (we’ll get to that bias in a minute). Perhaps the developers did not recognize how severe the age bias is. Even in a 2024 paper about the algorithm, where they briefly discuss many of its limitations including the five-year cap, they do not mention that the cap de-prioritizes younger patients.
On the other hand, the list of features (donor and recipient characteristics) is prominently listed and discussed in public communications about the system. This may reflect a misconception that the way to understand an algorithm, including its potentially discriminatory effects, is to look at the list of features — the inputs. In reality, the target variable — the output — is often more important for fairness than the features.
Unfortunately there is little recognition of this crucial fact outside the technical community (and sometimes even within the technical community). Instead there is a narrow focus on removing sensitive variables (such as age, race, or gender) and proxies for the sensitive variables from the list of features, which is usually ineffective and often even counterproductive.
The choice of a 5-year period seems to be because of data availability: “This length of follow-up was selected as data were readily available ... while longer follow-up was not.” In our experience, there is almost always some difficulty that prevents accurately measuring the true construct of interest, which is why this is one of the recurring flaws we identify in the Against Predictive Optimization paper. It is a target-construct mismatch, because what is being predicted, the target, differs from what we actually want to predict, the construct.
It gets worse
The cap means that the expected survival with a transplant for most patient groups is about the same (about 4.5 years, reflecting the fact that about 85% of patients survive 5 years after a transplant). So the utility of the transplant, while high, is more-or-less uniformly high, which means that it doesn’t really factor into the scores! It turns out that the algorithm is mostly just assessing need, that is, how long patients would survive without a transplant.
This is ironic because modeling post-transplant survival was claimed to be the main reason to use this system over the previous one. If it keeps more people from dying, we suspect it is simply because it does a better job of assessing need, and/or because the use of the algorithm coincided with a move from regional to national systems, allowing it to better cater to high-need patients in previously under-served regions.
The fact that the system isn’t very good at meeting its stated objectives only seems to have been reported a decade after the algorithm was developed (although in retrospect, there were clear signals in the results of the simulations that were run before deployment). Specifically, it is noted in the comment-and-response section of a paper about the algorithm. In terms of obscurity, that’s the academic equivalent of Wikipedia’s Talk pages — most of the public wouldn’t even know such a thing exists.
An algorithmic absurdity: cancer improves survival
While the authors of the above paper mention in passing that one of the two models in the algorithm (post-transplant survival) doesn’t seem to do much, their main point is about the other model — the one that assesses need by predicting survival on the waiting list. They show that it expects patients with cancer to survive longer than those without cancer (all else being equal). This kind of thing is sometimes called algorithmic absurdity, something that would seem obviously wrong to a person based on common sense.
The prediction about patients with cancer is not just an oddity — it has big consequences for patients’ lives: “for the first 3 years of the TBS scheme (excluding the period when TBS offering was suspended due to COVID-19), patients with cancer were rarely allocated livers by the TBS model”. This is what led to the 2022 revision of the algorithm.
The finding is reminiscent of a well-known failure from a few decades ago wherein a model predicted that patients with asthma were at lower risk of developing complications from pneumonia. Fortunately this was spotted before the model was deployed. It turned out to be a correct pattern in the data, but only because asthmatic patients were sent to the ICU, where they received better care. Of course, it would have been disastrous to replace that very policy with the ML model that treated asthmatic patients as lower risk. That case study has become a textbook illustration of the usefulness of interpretable models over black-box models. If researchers can easily examine the coefficients of the model, implausible behaviors become more readily apparent.
The TBS does use interpretable regression models. But it is actually two different sets of models, one for patients with cancer and one for patients without cancer, because the two groups are represented by two different data sources. That explains why the implausible behavior of the algorithm may have arisen — the patient populations are different; perhaps the population from which the cancer patients were drawn was younger or healthier in other ways. Of course, this doesn’t justify the algorithm’s behavior where flipping a specific patient from non-cancer to cancer increases the predicted survival. The fact that there are two different sets of models may also explain why it went undetected for so long — the problem is not obvious from the regression coefficients and can only be detected by simulating a patient population.
Sleepwalking into utilitarian ethics
Predictive logic bakes in a utilitarian worldview — the most good for the greatest number. That makes it hard to incorporate a notion of deservingness. Many people have a strong moral intuition that patients whose conditions result from factors outside their control are more deserving of help. From the Financial Times article:
Trivedi [the hepatologist] said patients found [the bias against younger patients] particularly unfair, because younger people tended to be born with liver disease or develop it as children, while older patients more often contracted chronic liver disease because of lifestyle choices such as drinking alcohol.
Donor preferences are also neglected. For example, presumably some donors would prefer to help someone in their own community. But in the utilitarian worldview, this is simply geographic discrimination. (Our point is not about whether deservingness or donor preferences are important considerations, but rather that the algorithm dictates the ethical framework.)
Traditionally, individual physicians made decisions about transplants without much formal reasoning or accountability. But with routinization and increasing scale of organ transplantation, and the shift to nationwide matching systems, manual matching is no longer feasible. Automation has forced decision makers to make the matching criteria explicit. This formalization can be a good thing, as it allows ethical debate about the pros and cons of precisely specified policies.
But automation has also privileged utilitarianism, as it is much more amenable to calculation. Non-utilitarian considerations resist quantification. No committee of decision makers would want to be in charge of determining how much of a penalty to apply to patients who drank alcohol, and whatever choice they made would meet fierce objection. In contrast, the veneer of data-driven decision making, even though it hides many normative choices, allows decision makers to reach consensus and to deploy algorithms without endless debate.
For this reason, utilitarianism has been ascendant in many, many domains over the last few decades, including medical ethics and public health.
While the liver matching algorithm optimizes life years (albeit poorly), other algorithms and institutions go one step further and optimize “quality-adjusted” life years, taking into account factors such as how well a person is able to complete daily tasks and how much pain they are in. Quality adjustment has side-effects such as giving lower preference to disabled people.
Overall, we are not necessarily against this shift to utilitarian logic, but we think it should only be adopted if it is the result of a democratic process, not just because it’s more convenient. The tail shouldn’t wag the dog. It isn’t clear to what extent the wider public is even aware of the widespread shift to nationalized transplant systems — in many countries, for many organs — and the ethical logics that underpin them. Public input about specific systems, such as the one we’ve discussed, is not a replacement for broad societal consensus on the underlying moral frameworks. Nor should this debate be confined to the medical ethics literature.
What’s next
The liver allocation algorithm was developed and is run by the National Health Service (NHS), the UK’s publicly-funded health system. We’ve previously explained in this newsletter that bad outcomes result when public sector agencies outsource algorithmic decision making systems to opaque, profit-oriented companies. That’s not the case here. The developers are doing their best to save lives. A lot of thought and care went into the system, and there was public input. If there were missteps, they are a result of how hard the problem is.
There are clear problems with the liver allocation algorithm that can and should be addressed. There are at least three ways to mitigate the age bias. The first is to collect more and better data. The second is to put a thumb on the algorithm’s scale to ensure that the age distribution of recipients is roughly in line with society’s normative ideals. This can be achieved by formulating a constrained optimization problem (there are many papers on algorithmic fairness that show how to do this). The third is to stop using age as a factor. We don’t like this approach for reasons described above, but it is perhaps more easily defensible to non-experts.
The Liver Advisory Group is the entity with the power to effect changes. The members meet every six months. Unfortunately they haven’t yet uploaded their minutes from their May 2024 meeting, so it isn’t clear if they are paying attention.
The deeper, systemic problem will be harder to address — inadequate transparency and public participation in medical ethics. The rapid adoption of AI for medical decision making requires a whole-of-society ethical debate. This isn’t about specific algorithms but about the bundle of unexamined assumptions behind their claim to efficacy and thus to legitimacy. Better late than never.
Zooming out beyond medicine, the pitfalls that arise in disparate applications of predictive decision making bear striking similarities with each other. This calls for more research on avoiding these flaws as well as a community of practitioners from different fields who can learn from each other. Venues such as the conference on Fairness, Accountability, and Transparency can bring such cross-cutting groups together.
Further reading
Dissecting racial bias in an algorithm used to manage the health of populations is a classic paper that revealed how the use of the wrong target variable can lead to severe biases.
Voices in the Code is an excellent book that details the development of a kidney matching algorithm in the U.S. It show
関連記事
ヒルクライミング機械の構築:7 つの新規 MAI モデルを発表(5 分読了)
マイクロソフトは、開発者がモデル重みを調整し日常製品に統合できる 7 つの新規 MAI モデル「MAI」を発表した。これらは強化学習環境を用いたフロンティア・チューニング技術を採用しており、またメイヨー・クリニックとの医療 AI 共同開発も発表した。
AI エージェントによるインテリジェントな放射線科ワークフローの最適化
AWS は、従来のルールベースシステムが文脈を無視して診断遅延やコスト増を招く課題に対し、62 病院のデータ分析に基づき AI エージェントで症例割り当てを最適化する手法を発表した。
メイヨークリニックがAIを活用して救急外来の患者対応を録音
米国の大規模病院ネットワーク「メイヨークリニック」は、看護師との患者対応を含む救急外来での対話を記録する「アンビエント・リスニング」と呼ばれるシステムを導入し、収集したデータをAIで処理している。この録音はオプトアウト方式であり、患者が録音されていることを知らないケースもある。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み