SCIN: 代表的な皮膚科画像のための新リソース
Google ResearchとStanford Medicineは、皮膚疾患の多様な症状と肌色を網羅したオープンアクセスの画像データセット「SCIN」を公開し、AI医療ツールの公平性と実用性向上を目指している。
キーポイント
既存データセットの課題解決
従来の皮膚科画像データセットは、日常的な症状(発疹、アレルギー、感染症)の表現が不足し、肌色が明るい例に偏り、人種・民族情報が欠如しているという課題を抱えていた。
SCINデータセットの特徴
SCINは、人々がオンラインで検索する幅広い症状を反映し、様々な肌色や身体部位の画像を含み、臨床データセットでは見られない症状を補完するように設計されている。
オープンアクセスリソースとして公開
研究者、教育者、開発者向けに無料で公開され、貢献者のプライバシー保護に配慮した措置が取られている。
AI医療ツールの公平性向上
多様な肌色と症状を網羅することで、将来のAIツールがすべての人々に対して効果的に機能することを保証することを目指している。
影響分析・編集コメントを表示
影響分析
このデータセット公開は、医療AI分野におけるデータバイアス問題に直接取り組む重要な一歩であり、特に皮膚科診断AIの開発において公平性と実用性を高める基盤となる。オープンアクセスとして公開されることで、研究コミュニティ全体の進歩を加速し、医療格差是正への貢献が期待される。
編集コメント
AI医療の実用化においてデータの多様性と公平性が重要な課題となる中、業界をリードする企業が具体的な解決策を提供した点で注目に値する。
SCIN: 代表的な皮膚科画像のための新リソース
Google Research 研究員 Pooja Rao 投稿
<img src="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEi_fSTMFxLAMHLJ0rw7OAddGSPMW2tRl8kmTr2mWiiJunKxB8ZflMJeWkBmB5IqCD2LvRoikpN7OYnZO3CdKpArGn32b4o-T8ZD6XCPxmUBtE1-sPBi6J05y5_UrfbWSMTjNpldKYzM3xjXoC0iWU7q_a7Ktfi2S1hVHLY8uq1986yp_pgEjQn3elNuSUbJ/s1600/SCINHero.png" style="display: none;" />
<p>
医療データセットは研究と医学教育において重要な役割を果たしますが、現実世界を代表するデータセットを作成することは困難な場合があります。例えば、皮膚疾患はその外観と重症度が多様で、肌の色調によって異なる様相を示します。しかし、既存の皮膚科画像データセットは、日常的な症状(発疹、アレルギー、感染症など)の表現が不足しており、明るい肌の色調に偏っている傾向があります。さらに、人種や民族の情報がしばしば欠如しており、格差を評価したり解決策を考案したりする能力を妨げています。
</p>
<p>
これらの限界に対処するため、私たちは<a href="https://med.stanford.edu/">スタンフォード大学医学部</a>の医師たちと協力して、<a href="https://github.com/google-research-datasets/scin">皮膚疾患画像ネットワーク(SCIN)データセット</a>を公開します。SCINは、人々がオンラインで検索する幅広い懸念事項を反映し、臨床データセットで一般的に見られる病態の種類を補完するように設計されています。このデータセットには様々な肌の色調や身体部位にわたる画像が含まれており、将来のAIツールがすべての人に対して効果的に機能することを保証するのに役立ちます。私たちは研究者、教育者、開発者のためのオープンアクセスリソースとして<a href="https://github.com/google-research-datasets/scin">SCINデータセット</a>を自由に利用できるようにし、投稿者のプライバシーを保護するための慎重な措置を講じました。
</p>
<table align="center" cellpadding="0" cellspacing="0" class="tr-caption-container" style="margin-left: auto; margin-right: auto;"><tbody><tr><td style="text-align: center;"><a href="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEi-lvUDxsY1bC8xXeRFKGtdyRiCk25knKK3tKzW2dCVtfvzFMUYvM7laqOBS0yP6Dnur5Fd945gbC96OMoiJ2nvguO6uguDArYkvnLUz5glvPlNpI1THL_bctcQCGlR670V4szxkHlcdvAJbP7T8HS7U3ASnHh_sWhSxoKJSsLN-1IPUpysj5ErdHaduz5r/s1327/image1.png" imageanchor="1" style="margin-left: auto; margin-right: auto;"><img border="0" data-original-height="1118" data-original-width="1327" src="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEi-lvUDxsY1bC8xXeRFKGtdyRiCk25knKK3tKzW2dCVtfvzFMUYvM7laqOBS0yP6Dnur5Fd945gbC96OMoiJ2nvguO6uguDArYkvnLUz5glvPlNpI1THL_bctcQCGlR670V4szxkHlcdvAJbP7T8HS7U3ASnHh_sWhSxoKJSsLN-1IPUpysj5ErdHaduz5r/s16000/image1.png" /></a></td></tr><tr><td class="tr-caption" style="text-align: center;">SCINデータセットからの画像とメタデータの例</td></tr></tbody></table>
<div style="line-height:40%;">
<br>
</div>
<h2>データセットの構成</h2>
<p>
SCINデータセットは現在、皮膚、爪、または毛髪の症状を経験している個人から直接寄稿された10,000枚以上の画像を含んでいます。すべての寄稿は、米国内の個人による、インフォームドコンセントに基づく自発的なもので、施設内審査委員会が承認した研究の下で行われました。皮膚科医による遡及的ラベリングに文脈を提供するため、寄稿者には接写と少し離れた位置からの両方の画像を撮影するよう依頼しました。寄稿者には、人口統計情報と<a href="https://en.wikipedia.org/wiki/Fitzpatrick_scale">日焼け傾向</a>(自己申告によるフィッツパトリック肌タイプ、すなわちsFST)を自己報告するオプション、および自身の懸念に関連する質感、持続期間、症状を記述するオプションが与えられました。
</p>
<p>
1人から3人の皮膚科医が各寄稿に対して、最大5つの皮膚疾患のラベルと、各ラベルに対する信頼度スコアを付与しました。SCINデータセットにはこれらの個々のラベルに加え、それらから導き出された集約的で重み付けされた鑑別診断が含まれており、モデルのテストやトレーニングに有用です。これらのラベルは遡及的に割り当てられたものであり、臨床診断と同等ではありませんが、SCINデータセットにおける皮膚疾患の分布を既存のデータセットと比較することを可能にします。
</p>
<table align="center" cellpadding="0" cellspacing="0" class="tr-caption-container" style="margin-left: auto; margin-right: auto;"><tbody><tr><td style="text-align: center;"><a href="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEi7oYE7nKEvgBaW6SEHfGFzCrhnKqX5w86_7ujHMbpMENOByxcUTgAzXJrZCgv6kbDVmTN8NmKSBBSvF4XkWKcKf5DT_b3A5D50ZpAr-93i3a69KUFOZy54diZxH_wcf1PeKdFlRbEe_OZODxS0N4ZrHSaiki8ZslUfFUatw4w-0p0zzD4GRwlqgmPLR6gw/s1851/image2.png" imageanchor="1" style="margin-left: auto; margin-right: auto;"><img border="0" data-original-height="775" data-orig
原文を表示
<span class="byline-author">Posted by Pooja Rao, Research Scientist, Google Research</span>
<img src="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEi_fSTMFxLAMHLJ0rw7OAddGSPMW2tRl8kmTr2mWiiJunKxB8ZflMJeWkBmB5IqCD2LvRoikpN7OYnZO3CdKpArGn32b4o-T8ZD6XCPxmUBtE1-sPBi6J05y5_UrfbWSMTjNpldKYzM3xjXoC0iWU7q_a7Ktfi2S1hVHLY8uq1986yp_pgEjQn3elNuSUbJ/s1600/SCINHero.png" style="display: none;" />
<p>
Health datasets play a crucial role in research and medical education, but it can be challenging to create a dataset that represents the real world. For example, dermatology conditions are diverse in their appearance and severity and manifest differently across skin tones. Yet, existing dermatology image datasets often lack representation of everyday conditions (like rashes, allergies and infections) and skew towards lighter skin tones. Furthermore, race and ethnicity information is frequently missing, hindering our ability to assess disparities or create solutions.
</p>
<a name='more'></a>
<p>
To address these limitations, we are releasing the <a href="https://github.com/google-research-datasets/scin">Skin Condition Image Network (SCIN) dataset</a> in collaboration with physicians at <a href="https://med.stanford.edu/">Stanford Medicine</a>. We designed SCIN to reflect the broad range of concerns that people search for online, supplementing the types of conditions typically found in clinical datasets. It contains images across various skin tones and body parts, helping to ensure that future AI tools work effectively for all. We've made <a href="https://github.com/google-research-datasets/scin">the SCIN dataset</a> freely available as an open-access resource for researchers, educators, and developers, and have taken careful steps to protect contributor privacy.
</p>
<table align="center" cellpadding="0" cellspacing="0" class="tr-caption-container" style="margin-left: auto; margin-right: auto;"><tbody><tr><td style="text-align: center;"><a href="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEi-lvUDxsY1bC8xXeRFKGtdyRiCk25knKK3tKzW2dCVtfvzFMUYvM7laqOBS0yP6Dnur5Fd945gbC96OMoiJ2nvguO6uguDArYkvnLUz5glvPlNpI1THL_bctcQCGlR670V4szxkHlcdvAJbP7T8HS7U3ASnHh_sWhSxoKJSsLN-1IPUpysj5ErdHaduz5r/s1327/image1.png" imageanchor="1" style="margin-left: auto; margin-right: auto;"><img border="0" data-original-height="1118" data-original-width="1327" src="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEi-lvUDxsY1bC8xXeRFKGtdyRiCk25knKK3tKzW2dCVtfvzFMUYvM7laqOBS0yP6Dnur5Fd945gbC96OMoiJ2nvguO6uguDArYkvnLUz5glvPlNpI1THL_bctcQCGlR670V4szxkHlcdvAJbP7T8HS7U3ASnHh_sWhSxoKJSsLN-1IPUpysj5ErdHaduz5r/s16000/image1.png" /></a></td></tr><tr><td class="tr-caption" style="text-align: center;">Example set of images and metadata from the SCIN dataset.</td></tr></tbody></table>
<div style="line-height:40%;">
<br>
</div>
<h2>Dataset composition</h2>
<p>
The SCIN dataset currently contains over 10,000 images of skin, nail, or hair conditions, directly contributed by individuals experiencing them. All contributions were made voluntarily with informed consent by individuals in the US, under an institutional-review board approved study. To provide context for retrospective dermatologist labeling, contributors were asked to take images both close-up and from slightly further away. They were given the option to self-report demographic information and <a href="https://en.wikipedia.org/wiki/Fitzpatrick_scale">tanning propensity</a> (self-reported Fitzpatrick Skin Type, i.e., sFST), and to describe the texture, duration and symptoms related to their concern.
</p>
<p>
One to three dermatologists labeled each contribution with up to five dermatology conditions, along with a confidence score for each label. The SCIN dataset contains these individual labels, as well as an aggregated and weighted differential diagnosis derived from them that could be useful for model testing or training. These labels were assigned retrospectively and are not equivalent to a clinical diagnosis, but they allow us to compare the distribution of dermatology conditions in the SCIN dataset with existing datasets.
</p>
<table align="center" cellpadding="0" cellspacing="0" class="tr-caption-container" style="margin-left: auto; margin-right: auto;"><tbody><tr><td style="text-align: center;"><a href="https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEi7oYE7nKEvgBaW6SEHfGFzCrhnKqX5w86_7ujHMbpMENOByxcUTgAzXJrZCgv6kbDVmTN8NmKSBBSvF4XkWKcKf5DT_b3A5D50ZpAr-93i3a69KUFOZy54diZxH_wcf1PeKdFlRbEe_OZODxS0N4ZrHSaiki8ZslUfFUatw4w-0p0zzD4GRwlqgmPLR6gw/s1851/image2.png" imageanchor="1" style="margin-left: auto; margin-right: auto;"><img border="0" data-original-height="775" data-orig
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み