皮膚科と病理学のための医療特化型埋め込みツール
Google Researchは、皮膚科と病理学の医療画像解釈における世界的な専門家不足を緩和するため、ドメイン固有の埋め込みツールを開発し、高次元データを扱う際の課題を軽減することで、機械学習モデルの開発・実装を促進することを目指している。
キーポイント
医療画像解釈における世界的な専門家不足
放射線科、皮膚科、病理学を含む専門分野において、医療画像の専門的解釈へのアクセスが世界的に不足しており、機械学習技術がこの負担を軽減する可能性がある。
機械学習ツール開発の制約
高品質なデータ、機械学習の専門知識、計算リソースの可用性が、医療画像向け機械学習ツールの開発と実装を制限している。
ドメイン固有埋め込みモデルの提案
深層学習を用いて医療画像の情報を圧縮された数値ベクトル(埋め込み)として捕捉するドメイン固有モデルが、機械学習の医療画像への応用を促進する一つの方法である。
埋め込みの利点と応用
埋め込みは画像内の重要な特徴に関する事前学習された理解を表し、高次元データを直接扱う場合と比較して、高性能なモデルを訓練するために必要なデータ量、専門知識、計算量を削減できる。
Path Foundationの役割
Path Foundationは、少量の(画像、ラベル)ペアを(埋め込み、ラベル)ペアに変換するために使用され、これらのペアは線形プローブ(軽量な線形分類器)などのタスク固有の分類器のトレーニングに利用できる。
線形プローブの評価方法
トレーニングされた線形プローブは、新しい画像から得られた埋め込みに対して予測を行い、その予測結果をグラウンドトゥルース情報と比較することで性能を評価することができる。
ドメイン特化型埋め込みツールのリリース
Google Healthは、皮膚科画像用のDerm Foundationと病理画像用のPath Foundationという2つのドメイン特化型埋め込みツールを研究用途で公開した。これにより、研究者は自前の画像データセットから埋め込みベクトルを取得し、新しいモデルを迅速に開発できる。
影響分析・編集コメントを表示
影響分析
この研究は、医療AIの実用化における大きな障壁であるリソース制約に対処する実用的なフレームワークを提案しており、特に専門家が不足する医療分野でのAI導入を加速させる可能性がある。Googleが医療画像解析の基盤技術を強化することで、同分野の研究開発エコシステム全体に影響を与える重要な進展と言える。
編集コメント
専門家不足という現実的な医療課題に対して、技術的なブレークスルー(埋め込み)でアプローチする実用志向の研究発表。Googleの研究ブログからの発信であり、同社のヘルスケア領域への本格的な取り組みを示唆している。
Google Health の臨床研究科学者である Dave Steiner と、Google Research のプロダクトマネージャーである Rory Pilgrim によって投稿されました

放射線科 radiology、皮膚科 dermatology、病理学 pathology など、あらゆる専門分野において、医療画像の専門家による解釈へのアクセスが世界的に不足しています。機械学習(ML)技術は、医師がこれらの画像をより正確かつ効率的に解釈できるツールを支えることで、この負担を軽減する手助けができます。しかし、そのような ML ツールの開発と実装は、高品質なデータの入手可能性、ML に関する専門知識、および計算資源の制約によってしばしば制限されています。
医療画像における機械学習(ML)の利用を促進する一つの方法は、深層学習(DL)を活用して医療画像内の情報を圧縮された数値ベクトル(エンベディングと呼ばれる)として捉えるドメイン固有モデルを用いることです。これらのエンベディングは、画像内の重要な特徴に対する事前学習された理解の一種を表しています。高次元データ(例:画像)を直接扱うことに比べ、エンベディング内のパターンを特定することで、高性能なモデルを訓練するために必要なデータ量、専門知識、計算リソースを削減できます。実際、これらのエンベディングは、専門分野内における多様な下流タスクの実行に利用可能です(以下のアニメーショングラフィック参照)。事前学習された理解を活用して関連する課題を解決するというこの枠組みは、熟練したギタリストが耳で新しい曲を素早く習得する様子に似ています。ギタリストはすでにスキルと理解の基盤を築いているため、新しい曲のパターンやグルーヴをすぐに掴むことができるからです。
Path Foundation は、少数の(画像,ラベル)ペアから(エンベディング,ラベル)ペアへの変換を行います。これらのペアはその後、このグラフィックで示されるような線形プローブ(すなわち軽量な線形分類器)を用いてタスク固有の分類器を訓練したり、エンベディングを入力として用いる他の種類のモデルを訓練したりするために利用されます。
線形プローブのトレーニングが完了すると、新しい画像からの埋め込みに対して予測を行うことができます。これらの予測は、正解情報と比較することで、線形プローブのパフォーマンスを評価するために使用されます。
この種の埋め込みモデルを利用可能にし、医療画像における機械学習ツールのさらなる開発を推進するため、研究利用向けの2 つのドメイン固有ツールを公開することを嬉しく思います。それは Derm Foundation と Path Foundation です。これは、胸部 X 線画像用の埋め込みツールである CXR Foundation を使用した研究者たちから既に受けた強い反応に続くものであり、複数の医療専門モダリティにわたる当社の研究提供の拡大の一部を構成するものです。これらの埋め込みツールは画像を入力として受け取り、それぞれ皮膚科学およびデジタル病理学のドメインに特化した数値ベクトル(埋め込み)を生成します。胸部 X 線、皮膚科、または病理学の画像データセットをそれぞれの埋め込みツールに通すことで、研究者は自身の画像に対する埋め込みを取得し、これらの埋め込みを使用して、アプリケーション用の新しいモデルを迅速に開発することができます。
Path Foundation
「ドメイン固有の最適化と組織病理学における自己教師ありモデルの多様な評価」という論文では、病理画像用の自己教師あり学習(SSL)モデルが従来の事前学習アプローチを上回り、下流タスクのための分類器を効率的に訓練できることを示しました。この取り組みは、診断病理学における主要な組織染色であり、病理医が顕微鏡下で細胞の特徴を可視化することを可能にするヘマトキシリン・エオシン(H&E)染色スライドに焦点を当てていました。SSL モデルの出力を用いて訓練された線形分類器のパフォーマンスは、桁違いにより多くのラベル付きデータで訓練された従来の深層学習(DL)モデルと同等のものでした。
デジタル病理画像と「自然画像」写真の間には大きな違いがあるため、この研究ではモデル学習中にいくつかの病理学固有の最適化が行われました。重要な要素の一つは、病理学におけるスライド全体画像(WSI)は幅が 100,000 ピクセルに達しうる点です(一般的なスマートフォン写真の数千倍の大きさ)。また、これらは専門家によって複数の倍率(ズームレベル)で分析されます。そのため、WSI はコンピュータビジョンおよび深層学習(DL: Deep Learning)アプリケーション向けに、より小さなタイルまたはパッチに分割されることが一般的です。生成された画像は情報密度が高く、細胞や組織構造がフレーム全体に分布しており、明確な意味論的オブジェクトや前景と背景の対比といった特徴を持たないため、堅牢な自己教師あり学習(SSL: Self-Supervised Learning)および特徴抽出に対して独自の課題を生み出します。さらに、サンプル調製に用いられる物理的(例:切断)および化学的(例:固定) および染色)プロセスは、画像の外観に劇的な影響を与える可能性があります。
これらの重要な側面を考慮し、病理学固有の自己教師あり学習(SSL)最適化には、モデルが染色に依存しない特徴 stain-agnostic features を学習するのを支援すること、複数の倍率からのパッチに対してモデルを一般化させること、スキャンおよび画像後処理を模倣するためにデータを 拡張 すること、そして SSL 訓練における入力データの不均一性を改善するためのカスタムデータバランス調整が含まれていました。これらのアプローチは、17 の異なる組織タイプにわたる 12 の異なるタスクを含む広範なベンチマークセットを用いて徹底的に評価されました。
ビジョントランスフォーマー(ViT-S/16)アーキテクチャを活用し、上記の最適化および評価プロセス(および以下の図に示されるもの)から、Path Foundation が最もパフォーマンスの高いモデルとして選択されました。このモデルは、大規模な病理学 WSIs の多数の個別画像パッチに対して埋め込みを生成する際の価値あるかつスケーラブルな利用を可能にするため、パフォーマンスとモデルサイズの間に重要なバランスを提供します。
Path Foundation における病理学固有の最適化を伴う SSL 訓練。
ドメイン固有の画像表現の価値は、以下の図からも確認できます。この図は、従来の自然画像を用いた事前学習(ImageNet-21k)と比較した際の Path Foundation の線形プロービング性能向上を示しています(評価指標は AUROC)。これには、リンパ節における転移性乳がんの検出 (metastatic breast cancer detection in lymph nodes)、前立腺がんのグレード分類 (prostate cancer grading、乳がんのグレード分類 (breast cancer grading) など、複数のタスクにおける評価が含まれています。
線形プロービングによる多様な組織病理学評価タスクでの結果から、Path Foundation の埋め込み表現は従来の ImageNet 埋め込み表現を著しく上回ることが示されています。
Derm Foundation
Derm Foundation は、皮膚科疾患の画像解釈に深層学習(DL)を適用するという私たちの研究から派生した埋め込みツールであり、新しいデータセットに対してより一般化できるよう改善を加えた最新の研究成果も含まれています。arxiv.org/abs/2402.15566 皮膚科に特化した事前学習により、皮膚疾患の画像に含まれる特徴に対する潜在的な理解を備えており、皮膚疾患を分類するモデルを迅速に開発するために使用できます。API の基盤となるモデルは、BiT ResNet-101x3 であり、2 つの段階でトレーニングされています。最初の事前学習段階では、インターネット上の多数の画像テキストペア blog.research.google/2017/07/revisiting-unreasonable-effectiveness.html を用いて、ConVIRT と同様のコントラスト学習(contrastive learning)によりトレーニングが行われます。2 つ目の段階では、この事前学習済みモデルの画像コンポーネントが、遠隔皮膚科サービスなどの臨床データセットを用いて疾患分類のために微調整(fine-tuning)されます。
組織病理画像とは異なり、皮膚科画像は今日多くのコンピュータビジョンモデルのトレーニングに使用される実世界の画像により近いです。しかし、専門的な皮膚科タスクにおいては、高品質なモデルを作成するには依然として大規模なデータセットが必要となる場合があります。Derm Foundation を用いることで、研究者は自身の小規模データセットを使用してドメイン固有の埋め込み(embeddings)を取得し、それらを利用してより小さなモデル(例えば線形分類器やその他の小型非線形モデルなど)を構築できます。これにより、研究や製品アイデアを検証することが可能になります。このアプローチの評価のため、遠隔皮膚診療データを用いた下流タスクでモデルのトレーニングを行いました。モデルトレーニングでは、埋め込みベースの線形分類器とファインチューニング(fine-tuning)を比較するために、データセットサイズ(12.5%、25%、50%、100%)を変化させました。
検討されたモデルの変種は以下の通りです:
- BiT-M(標準的な事前学習済み画像モデル)の凍結埋め込み(frozen embeddings)に基づく線形分類器
- 下流タスク用の追加の密結合層(dense layer)を備えた、BiT-M のファインチューニング版
- Derm Foundation API の凍結埋め込みに基づく線形分類器
- Derm Foundation API の基盤モデルに下流タスク用の追加層を加えたファインチューニング版
我々は、皮膚科関連タスクにおいて Derm Foundation 埋め込みの上に構築されたモデルが、埋め込みのみまたは BiT-M からファインチューニングして構築されたモデルよりも著しく高い品質を達成することを発見しました。この優位性は、特にトレーニングデータセットサイズが小さい場合に顕著であることがわかりました。
これらの結果は、Derm Foundation ツールが皮膚関連のモデリングタスクを加速するための有用な出発点として機能し得ることを示しています。私たちは、このモデルが学習した皮膚科学の基礎的な特徴や表現に基づいて、他の研究者が研究を進められるようにすることを目指しています。
しかし、この分析には限界もあります。これらの埋め込み表現が、タスクの種類、患者集団、画像設定にわたってどの程度一般化できるかについては、まだ探索中の段階です。Derm Foundation を用いて構築された下流モデルについても、意図した環境における期待される性能を理解するために、慎重な評価が必要です。
アクセスパスと Derm Foundation
私たちは、Derm Foundation および Path Foundation の埋め込みツールが、診断タスク用の効率的なモデル開発、品質保証および前分析ワークフローの改善、画像のインデックス化とキュレーション、バイオマーカーの発見と検証など、さまざまなユースケースを可能にすると考えています。これらのツールの埋め込み表現が、各自の皮膚科学および病理学データにおいてどのように活用できるかを探索できるよう、両方のツールを研究コミュニティに向けて公開します。
アクセスをご希望の場合は、以下の Google フォームを使用して、各ツールの利用規約にサインアップしてください。
- Derm Foundation Access Form
- Path Foundation Access Form
各ツールへのアクセス権を取得した後、Google Cloud に保存された皮膚科画像またはデジタル病理画像から埋め込みベクトルを API を通じて取得することができます。モデルと埋め込みベクトルの動作を確認したいという好奇心旺盛な承認済みユーザーは、提供されている例の Colab ノートブックを使用して、6 つの一般的な皮膚疾患 の分類や 組織病理学的パッチ における腫瘍の同定のために、公開データを用いてモデルをトレーニングすることができます。これらのツールがどのような用途の可能性を開くのか、その範囲を楽しみにしています。
謝辞
*この研究を可能にするために貢献いただいた多くの協力者の方々に感謝いたします。氏名は以下の通りです:Yun Liu, Can Kirmizi, Fereshteh Mahvar, Bram Sterling, Arman Tajback, Kenneth Philbrik, Arnav Agharwal, Aurora Cheung, Andrew Sellergren, Boris Babenko, Basil Mustafa, Jan Freyberg, Terry Spitz, Yuan Liu, Pinal Bavishi, Ayush Jain, Amit Talreja, Rajeev Rikhye, Abbi Ward, Jeremy Lai, Faruk Ahmed, Supriya Vijay, Tiam Jaroensri, Jessica Loo, Saurabh Vyawahare, Saloni Agarwal, Ellery Wulczyn, Jonathan Krause, Fayaz Jamil, Tom Small, Annisah Um'rani, Lauren Winer, Sami Lachgar, Yossi Matias, Greg Corrado, および Dale Webster。
原文を表示
Posted by Dave Steiner, Clinical Research Scientist, Google Health, and Rory Pilgrim, Product Manager, Google Research

There’s a worldwide shortage of access to medical imaging expert interpretation across specialties including radiology, dermatology and pathology. Machine learning (ML) technology can help ease this burden by powering tools that enable doctors to interpret these images more accurately and efficiently. However, the development and implementation of such ML tools are often limited by the availability of high-quality data, ML expertise, and computational resources.
One way to catalyze the use of ML for medical imaging is via domain-specific models that utilize deep learning (DL) to capture the information in medical images as compressed numerical vectors (called embeddings). These embeddings represent a type of pre-learned understanding of the important features in an image. Identifying patterns in the embeddings reduces the amount of data, expertise, and compute needed to train performant models as compared to working with high-dimensional data, such as images, directly. Indeed, these embeddings can be used to perform a variety of downstream tasks within the specialized domain (see animated graphic below). This framework of leveraging pre-learned understanding to solve related tasks is similar to that of a seasoned guitar player quickly learning a new song by ear. Because the guitar player has already built up a foundation of skill and understanding, they can quickly pick up the patterns and groove of a new song.
Path Foundation is used to convert a small dataset of (image, label) pairs into (embedding, label) pairs. These pairs can then be used to train a task-specific classifier using a linear probe, (i.e., a lightweight linear classifier) as represented in this graphic, or other types of models using the embeddings as input.
Once the linear probe is trained, it can be used to make predictions on embeddings from new images. These predictions can be compared to ground truth information in order to evaluate the linear probe's performance.
In order to make this type of embedding model available and drive further development of ML tools in medical imaging, we are excited to release two domain-specific tools for research use: Derm Foundation and Path Foundation. This follows on the strong response we’ve already received from researchers using the CXR Foundation embedding tool for chest radiographs and represents a portion of our expanding research offerings across multiple medical-specialized modalities. These embedding tools take an image as input and produce a numerical vector (the embedding) that is specialized to the domains of dermatology and digital pathology images, respectively. By running a dataset of chest X-ray, dermatology, or pathology images through the respective embedding tool, researchers can obtain embeddings for their own images, and use these embeddings to quickly develop new models for their applications.
Path Foundation
In “Domain-specific optimization and diverse evaluation of self-supervised models for histopathology”, we showed that self-supervised learning (SSL) models for pathology images outperform traditional pre-training approaches and enable efficient training of classifiers for downstream tasks. This effort focused on hematoxylin and eosin (H&E) stained slides, the principal tissue stain in diagnostic pathology that enables pathologists to visualize cellular features under a microscope. The performance of linear classifiers trained using the output of the SSL models matched that of prior DL models trained on orders of magnitude more labeled data.
Due to substantial differences between digital pathology images and “natural image” photos, this work involved several pathology-specific optimizations during model training. One key element is that whole-slide images (WSIs) in pathology can be 100,000 pixels across (thousands of times larger than typical smartphone photos) and are analyzed by experts at multiple magnifications (zoom levels). As such, the WSIs are typically broken down into smaller tiles or patches for computer vision and DL applications. The resulting images are information dense with cells or tissue structures distributed throughout the frame instead of having distinct semantic objects or foreground vs. background variations, thus creating unique challenges for robust SSL and feature extraction. Additionally, physical (e.g., cutting) and chemical (e.g., fixing) and staining) processes used to prepare the samples can influence image appearance dramatically.
Taking these important aspects into consideration, pathology-specific SSL optimizations included helping the model learn stain-agnostic features, generalizing the model to patches from multiple magnifications, augmenting the data to mimic scanning and image post processing, and custom data balancing to improve input heterogeneity for SSL training. These approaches were extensively evaluated using a broad set of benchmark tasks involving 17 different tissue types over 12 different tasks.
Utilizing the vision transformer (ViT-S/16) architecture, Path Foundation was selected as the best performing model from the optimization and evaluation process described above (and illustrated in the figure below). This model thus provides an important balance between performance and model size to enable valuable and scalable use in generating embeddings over the many individual image patches of large pathology WSIs.
SSL training with pathology-specific optimizations for Path Foundation.
The value of domain-specific image representations can also be seen in the figure below, which shows the linear probing performance improvement of Path Foundation (as measured by AUROC) compared to traditional pre-training on natural images (ImageNet-21k). This includes evaluation for tasks such as metastatic breast cancer detection in lymph nodes, prostate cancer grading, and breast cancer grading, among others.
Path Foundation embeddings significantly outperform traditional ImageNet embeddings as evaluated by linear probing across multiple evaluation tasks in histopathology.
Derm Foundation
Derm Foundation is an embedding tool derived from our research in applying DL to interpret images of dermatology conditions and includes our recent work that adds improvements to generalize better to new datasets. Due to its dermatology-specific pre-training it has a latent understanding of features present in images of skin conditions and can be used to quickly develop models to classify skin conditions. The model underlying the API is a BiT ResNet-101x3 trained in two stages. The first pre-training stage uses contrastive learning, similar to ConVIRT, to train on a large number of image-text pairs from the internet. In the second stage, the image component of this pre-trained model is then fine-tuned for condition classification using clinical datasets, such as those from teledermatology services.
Unlike histopathology images, dermatology images more closely resemble the real-world images used to train many of today's computer vision models. However, for specialized dermatology tasks, creating a high-quality model may still require a large dataset. With Derm Foundation, researchers can use their own smaller dataset to retrieve domain-specific embeddings, and use those to build smaller models (e.g., linear classifiers or other small non-linear models) that enable them to validate their research or product ideas. To evaluate this approach, we trained models on a downstream task using teledermatology data. Model training involved varying dataset sizes (12.5%, 25%, 50%, 100%) to compare embedding-based linear classifiers against fine-tuning.
The modeling variants considered were:
- A linear classifier on frozen embeddings from BiT-M (a standard pre-trained image model)
- Fine-tuned version of BiT-M with an extra dense layer for the downstream task
- A linear classifier on frozen embeddings from the Derm Foundation API
- Fine-tuned version of the model underlying the Derm Foundation API with an extra layer for the downstream task
We found that models built on top of the Derm Foundation embeddings for dermatology-related tasks achieved significantly higher quality than those built solely on embeddings or fine tuned from BiT-M. This advantage was found to be most pronounced for smaller training dataset sizes.
These results demonstrate that the Derm Foundation tooI can serve as a useful starting point to accelerate skin-related modeling tasks. We aim to enable other researchers to build on the underlying features and representations of dermatology that the model has learned.
However, there are limitations with this analysis. We're still exploring how well these embeddings generalize across task types, patient populations, and image settings. Downstream models built using Derm Foundation still require careful evaluation to understand their expected performance in the intended setting.
Access Path and Derm Foundation
We envision that the Derm Foundation and Path Foundation embedding tools will enable a range of use cases, including efficient development of models for diagnostic tasks, quality assurance and pre-analytical workflow improvements, image indexing and curation, and biomarker discovery and validation. We are releasing both tools to the research community so they can explore the utility of the embeddings for their own dermatology and pathology data.
To get access, please sign up to each tool's terms of service using the following Google Forms.
- Derm Foundation Access Form
- Path Foundation Access Form
After gaining access to each tool, you can use the API to retrieve embeddings from dermatology images or digital pathology images stored in Google Cloud. Approved users who are just curious to see the model and embeddings in action can use the provided example Colab notebooks to train models using public data for classifying six common skin conditions or identifying tumors in histopathology patches. We look forward to seeing the range of use-cases these tools can unlock.
Acknowledgements
*We would like to thank the many collaborators who helped make this work possible including Yun Liu, Can Kirmizi, Fereshteh Mahvar, Bram Sterling, Arman Tajback, Kenneth Philbrik, Arnav Agharwal, Aurora Cheung, Andrew Sellergren, Boris Babenko, Basil Mustafa, Jan Freyberg, Terry Spitz, Yuan Liu, Pinal Bavishi, Ayush Jain, Amit Talreja, Rajeev Rikhye, Abbi Ward, Jeremy Lai, Faruk Ahmed, Supriya Vijay,Tiam Jaroensri, Jessica Loo, Saurabh Vyawahare, Saloni Agarwal, Ellery Wulczyn, Jonathan Krause, Fayaz Jamil, Tom Small, Annisah Um'rani, Lauren Winer, Sami Lachgar, Yossi Matias, Greg Corrado, and Dale Webster.*
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み