AIが細胞生物学における全体像の把握を支援
AIを活用した手法により、細胞の包括的情報を提供することで、科学者が疾患メカニズムをより深く理解し、実験計画を立てるのを支援する。
キーポイント
細胞生物学研究のための新しいAIフレームワークが開発され、複数の測定手法(モダリティ)から得られるデータを統合的に分析できるようになった
従来の機械学習手法では各測定手法のデータを一括処理していたが、新手法では共有情報と固有情報を識別し、細胞状態のより包括的な理解を可能にする
この技術はがん、アルツハイマー病、糖尿病などの疾患メカニズムの解明や治療計画の立案に応用できる可能性がある
MITとハーバードのブロード研究所、ETHチューリッヒ/PSIの共同研究で開発され、学術的・臨床的価値が高い
影響分析・編集コメントを表示
影響分析
このAIフレームワークは細胞生物学研究のパラダイムを変える可能性があり、複雑な細胞データの統合分析を可能にすることで、疾患メカニズムのより深い理解と個別化医療の進展に貢献する。研究効率の向上と新たな生物学的知見の発見を加速させる技術的ブレークスルーと言える。
編集コメント
AIと生命科学の融合が進む中、複雑な生物データを統合的に解析する技術は医療イノベーションの鍵となる。研究現場での実装と臨床応用への展開が期待される。
AIが研究者に細胞生物学の全体像を見る手助けをする
Press Inquiries Press Contact:
Close
キャプション: 新しいAIフレームワークは、細胞に関するデータのうち、どの部分が1つの測定モダリティによって捕捉され、どの部分が複数のモダリティ間で共有されているかを特定する。これにより、研究者は細胞状態のより完全な全体像を得ることができ、疾患のメカニズムを理解し、治療計画を立てるのに役立つ可能性がある。 クレジット: Credit: iStock Previous image Next image
がん患者の細胞における遺伝子発現を研究することは、臨床生物学者ががんの起源を理解し、異なる治療法の成功を予測するのに役立つ。しかし、細胞は複雑で多くの層を含んでいるため、生物学者がどのように測定を行うかは、得られるデータに影響を与える。例えば、細胞内のタンパク質を測定することは、遺伝子発現や細胞形態を測定する場合とは、がんの影響に関する異なる情報をもたらす可能性がある。
細胞内のどの部分から情報が得られるかが重要である。しかし、細胞の状態に関する完全な情報を捕捉するために、科学者はしばしば異なる技術を用いて多くの測定を行い、それらを一つずつ分析しなければならない。機械学習手法はこのプロセスを加速できるが、既存の手法は各測定モダリティからの情報をすべて一緒くたにしてしまうため、どのデータが細胞のどの部分に由来するのかを把握することが難しい。
この問題を克服するために、MITおよびハーバード大学のブロード研究所とETHチューリッヒ/ポール・シェラー研究所(PSI)の研究者らは、細胞の状態に関する情報のうち、どの部分が異なる測定モダリティ間で共有され、どの部分が特定の測定タイプに固有であるかを学習する人工知能駆動のフレームワークを開発した。
どの情報が細胞のどの部分に由来するかを特定することで、このアプローチは細胞状態のより包括的な見方を提供し、生物学者が細胞間相互作用の完全な全体像を見ることを容易にする。これは、科学者が疾患のメカニズムを理解し、がん、アルツハイマー病などの神経変性疾患、糖尿病などの代謝性疾患の進行を追跡するのに役立つ可能性がある。
「細胞を研究する際、1回の測定ではしばしば十分ではないため、科学者は細胞の異なる側面を測定する新しい技術を開発しています。細胞を見る方法はたくさんありますが、結局のところ、根底にある細胞状態は一つだけです。これらの測定モダリティからの情報をより賢い方法でまとめれば、細胞の状態についてより完全な全体像を得ることができるでしょう」と、筆頭著者であるXinyi Zhang SM ’22, PhD ’25は述べている。Zhang氏はMIT電気工学・コンピュータ科学科(EECS)の元大学院生で、MITおよびハーバード大学ブロード研究所のEric and Wendy Schmidt Centerのアフィリエイトであり、現在はオーストリア・ウィーンのAITHYRAのグループリーダーを務めている。
この研究に関する論文の共著者は、ETHチューリッヒの健康科学技術学科教授でPSIのマルチスケールバイオイメージング研究室長を務めるG.V. Shivashankar教授と、MIT EECSおよびデータ・システム・社会研究所(IDSS)の教授、MIT情報意思決定システム研究所(LIDS)のメンバー、ブロード研究所のEric and Wendy Schmidt Center所長である筆頭著者Caroline Uhler教授である。この研究は本日『Nature Computational Science』に掲載された。
複数の測定を操作する
科学者が細胞の状態に関する情報を捕捉するために使用できるツールは数多くある。例えば、細胞が成長しているかどうかを確認するためにRNAを測定したり、細胞が外部の物理的または化学的シグナルに対処しているかどうかを確認するためにクロマチン形態を測定したりできる。
「科学者がマルチモーダル分析を行うとき、彼らは複数の測定モダリティを使用して情報を収集し、それを統合して細胞の根底にある状態をよりよく理解します。ある情報は1つのモダリティによってのみ捕捉され、他の情報はモダリティ間で共有されます。細胞内で何が起こっているかを完全に理解するためには、情報がどこから来たのかを知ることが重要です」とShivashankarは言う。
科学者にとって、これを整理する唯一の方法は、多くの場合、複数の個別の実験を行い、結果を比較することである。この遅くて煩雑なプロセスは、彼らが収集できる情報の量を制限する。
新しい研究で、研究者らは、どの情報が異なるモダリティ間で重複し、どの情報が特定のモダリティに固有であり他のモダリティでは捕捉されないかを特に理解する機械学習フレームワークを構築した。
「ユーザーとして、単に細胞データを入力するだけで、どのデータが共有され、どのデータがモダリティ固有であるかを自動的に教えてくれます」とZhangは言う。
このフレームワークを構築するために、研究者らは、マルチモーダル細胞測定を捕捉して解釈するために機械学習モデルが設計される典型的な方法を再考した。
通常、オートエンコーダーとして知られるこれらの手法は、測定モダリティごとに1つのモデルを持ち、各モデルはそのモダリティによって捕捉されたデータの個別の表現をエンコードする。表現は、無関係な詳細を捨て去った入力データの圧縮版である。
MITの手法では、複数のモダリティ間で重複するデータがエンコードされる共有表現空間と、各モダリティからの固有のデータがエンコードされる個別の空間を持つ。
本質的に、細胞データのベン図のように考えることができる。
研究者らはまた、どのデータが複数のデータモダリティ間で共有されているかを決定する際に関わる複雑さをモデルが処理するのに役立つ特別な2段階のトレーニング手順を使用した。トレーニング後、モデルは見たことのない細胞データを入力されると、どのデータが共有され、どのデータが固有であるかを識別できる。
データの区別
合成データセットでのテストでは、このフレームワークは既知の共有情報とモダリティ固有の情報を正しく捕捉した。彼らがこの方法を実世界の単一細胞データセットに適用したとき、トランスクリプトミクスとクロマチンアクセシビリティなどの2つの測定モダリティによって共同で捕捉された遺伝子活性を包括的かつ自動的に区別すると同時に、どの情報がそれらのモダリティのうちの1つからのみ来たかを正しく識別した。
さらに、研究者らはこの方法を用いて、がん患者のDNA損傷を示す特定のタンパク質マーカーをどの測定モダリティが捕捉したかを識別した。この情報がどこから来たかを知ることは、臨床科学者がそのマーカーを測定するためにどの技術を使用すべきかを決定するのに役立つだろう。
「細胞にはモダリティが多すぎて、すべてを測定することはできません。ですから予測ツールが必要です。しかし、その場合の問題は、どのモダリティを測定し、どのモダリティを予測すべきかということです。私たちの方法はその質問に答えることができます」とUhlerは言う。
将来的には、研究者らはモデルが細胞の状態についてより解釈可能な情報を提供できるようにしたいと考えている。また、細胞情報を正しく分離することを確認するための追加実験を行い、モデルをより広範な臨床的疑問に適用したいと考えている。
「これらすべてのモダリティからの情報を統合するだけでは十分ではありません」とUhlerは言う。「細胞の異なる構成要素が互いにどのように調節し合っているかを理解するために、異なるモダリティを注意深く比較すれば、細胞の状態について多くを学ぶことができます」
この研究は、一部、ブロード研究所のEric and Wendy Schmidt Center、スイス国立科学財団、米国国立衛生研究所、米国海軍研究局、アストラゼネカ、MIT-IBM Watson AI Lab、MIT J-Clinic for Machine Learning and Health、およびSimons Investigator Awardによって資金提供されている。
Share this news article on:
Laboratory for Information and Decision Systems
Institute for Data, Systems, and Society
Department of Electrical Engineering and Computer Science
School of Engineering
MIT Schwarzman College of Computing
Eric and Wendy Schmidt Center
Broad Institute
Biological engineering
Artificial intelligence
Machine learning
Computer sc
原文を表示
Press Inquiries Press Contact:
Close
Caption: A new AI framework identifies which data about a cell are captured by one measurement modality and which are shared across multiple modalities. This gives researchers a more complete picture of the cell state and could help them understand disease mechanisms and plan treatments. Credits: Credit: iStock Previous image Next image
Studying gene expression in a cancer patient’s cells can help clinical biologists understand the cancer’s origin and predict the success of different treatments. But cells are complex and contain many layers, so how the biologist conducts measurements affects which data they can obtain. For instance, measuring proteins in a cell could yield different information about the effects of cancer than measuring gene expression or cell morphology.
Where in the cell the information comes from matters. But to capture complete information about the state of the cell, scientists often must conduct many measurements using different techniques and analyze them one at a time. Machine-learning methods can speed up the process, but existing methods lump all the information from each measurement modality together, making it difficult to figure out which data came from which part of the cell.
To overcome this problem, researchers at the Broad Institute of MIT and Harvard and ETH Zurich/Paul Scherrer Institute (PSI) developed an artificial intelligence-driven framework that learns which information about a cell’s state is shared across different measurement modalities and which information is unique to a particular measurement type.
By pinpointing which information came from which cell parts, the approach provides a more holistic view of the cell’s state, making it easier for a biologist to see the complete picture of cellular interactions. This could help scientists understand disease mechanisms and track the progression of cancer, neurodegenerative disorders such as Alzheimer’s, and metabolic diseases like diabetes.
“When we study cells, one measurement is often not sufficient, so scientists develop new technologies to measure different aspects of cells. While we have many ways of looking at a cell, at the end of the day we only have one underlying cell state. By putting the information from all these measurement modalities together in a smarter way, we could have a fuller picture of the state of the cell,” says lead author Xinyi Zhang SM ’22, PhD ’25, a former graduate student in the MIT Department of Electrical Engineering and Computer Science (EECS) and an affiliate of the Eric and Wendy Schmidt Center at the Broad Institute of MIT and Harvard, who is now a group leader at AITHYRA in Vienna, Austria.
Zhang is joined on a paper about the work by G.V. Shivashankar, a professor in the Department of Health Sciences and Technology at ETH Zurich and head of the Laboratory of Multiscale Bioimaging at PSI; and senior author Caroline Uhler, a professor in EECS and the Institute for Data, Systems, and Society (IDSS) at MIT, member of MIT’s Laboratory for Information and Decision Systems (LIDS), and director of the Eric and Wendy Schmidt Center at the Broad Institute. The research appears today in Nature Computational Science.
Manipulating multiple measurements
There are many tools scientists can use to capture information about a cell’s state. For instance, they can measure RNA to see if the cell is growing, or they can measure chromatin morphology to see if the cell is dealing with external physical or chemical signals.
“When scientists perform multimodal analysis, they gather information using multiple measurement modalities and integrate it to better understand the underlying state of the cell. Some information is captured by one modality only, while other information is shared across modalities. To fully understand what is happening inside the cell, it is important to know where the information came from,” says Shivashankar.
Often, for scientists, the only way to sort this out is to conduct multiple individual experiments and compare the results. This slow and cumbersome process limits the amount of information they can gather.
In the new work, the researchers built a machine-learning framework that specifically understands which information overlaps between different modalities, and which information is unique to a particular modality but not captured by others.
“As a user, you can simply input your cell data and it automatically tells you which data are shared and which data are modality-specific,” Zhang says.
To build this framework, the researchers rethought the typical way machine-learning models are designed to capture and interpret multimodal cellular measurements.
Usually these methods, known as autoencoders, have one model for each measurement modality, and each model encodes a separate representation for the data captured by that modality. The representation is a compressed version of the input data that discards any irrelevant details.
The MIT method has a shared representation space where data that overlap between multiple modalities are encoded, as well as separate spaces where unique data from each modality are encoded.
In essence, one can think of it like a Venn diagram of cellular data.
The researchers also used a special, two-step training procedure that helps their model handle the complexity involved in deciding which data are shared across multiple data modalities. After training, the model can identify which data are shared and which are unique when fed cell data it has never seen before.
Distinguishing data
In tests on synthetic datasets, the framework correctly captured known shared and modality-specific information. When they applied their method to real-world single-cell datasets, it comprehensively and automatically distinguished between gene activity captured jointly by two measurement modalities, such as transcriptomics and chromatin accessibility, while also correctly identifying which information came from only one of those modalities.
In addition, the researchers used their method to identify which measurement modality captured a certain protein marker that indicates DNA damage in cancer patients. Knowing where this information came from would help a clinical scientist determine which technique they should use to measure that marker.
“There are too many modalities in a cell and we can’t possibly measure them all, so we need a prediction tool. But then the question is: Which modalities should we measure and which modalities should we predict? Our method can answer that question,” Uhler says.
In the future, the researchers want to enable the model to provide more interpretable information about the state of the cell. They also want to conduct additional experiments to ensure it correctly disentangles cellular information and apply the model to a wider range of clinical questions.
“It is not sufficient to just integrate the information from all these modalities,” Uhler says. “We can learn a lot about the state of a cell if we carefully compare the different modalities to understand how different components of cells regulate each other.”
This research is funded, in part, by the Eric and Wendy Schmidt Center at the Broad Institute, the Swiss National Science Foundation, the U.S. National Institutes of Health, the U.S. Office of Naval Research, AstraZeneca, the MIT-IBM Watson AI Lab, the MIT J-Clinic for Machine Learning and Health, and a Simons Investigator Award.
Share this news article on:
Laboratory for Information and Decision Systems
Institute for Data, Systems, and Society
Department of Electrical Engineering and Computer Science
School of Engineering
MIT Schwarzman College of Computing
Eric and Wendy Schmidt Center
Broad Institute
Biological engineering
Artificial intelligence
Machine learning
Computer science and technology
Laboratory for Information and Decision Systems (LIDS)
Electrical engineering and computer science (EECS)
School of Engineering
MIT Schwarzman College of Computing
Broad Institute
National Institutes of Health (NIH)
Related Articles
3 Questions: On biology and medicine’s “data revolution”

関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み