化学原理を理解する AI モデルの構築
MIT のConnor Coley准教授は、化学工学とコンピュータ科学を融合させ、機械学習を用いて膨大な化合物空間から創薬候補や反応経路を効率的に特定・設計するアプローチを紹介している。
キーポイント
AI を活用した創薬の必要性
潜在的な小分子医薬品が10^20〜10^60種類存在すると推定される中、実験による全評価は非現実的であり、AI による候補選定が不可欠となっている。
学際的な研究アプローチ
Coley准教授は化学工学とコンピュータサイエンスの境界領域で活動し、計算モデルを用いて化合物の設計や反応経路の予測を行っている。
機械学習とケミインフォマティクスの融合
DARPA の Make-It プログラムなどを通じて、機械学習と化学データ解析を組み合わせ、複雑な合成プロセスの自動化と最適化を実現している。
研究者の背景と経歴
科学者一家に育ち、16歳で高校を卒業したColey氏は、カリフォルニア工科大学およびMIT で化学工学とコンピュータサイエンスの両方を学び、この分野への深い知見を有している。
影響分析・編集コメントを表示
影響分析
この記事は、AI が単なるデータ解析ツールから、化学反応そのものを設計・予測する能動的なパートナーへと進化していることを示しています。特に、膨大な化合物空間を効率的に探索できる技術の確立は、創薬プロセスのパラダイムシフトを加速させる重要な一歩であり、将来的には新薬開発のスピードと成功率を劇的に向上させる可能性があります。
編集コメント
MIT の研究事例は、AI が化学の基礎原理と深く統合されつつある現状を如実に示しており、創薬分野における実用化への期待感を高める内容です。
可能な化学化合物すべての中で、小分子医薬品としての潜在能力を持つものは10の20乗から10の60乗の間にあると推定されています。
これらの化合物それぞれを実験的に評価することは、化学者にとってあまりにも時間がかかりすぎます。そのため、近年、研究者たちは人工知能(AI)を活用して、有望な医薬品候補となり得る化合物を特定し始めています。
その一人が、MIT のコナー・コリー准教授(PhD '19)です。彼は1957 年卒業生キャリア開発准教授として、化学工学学科と電気工学・コンピュータサイエンス学科、そして MIT シュワルツマン計算科学科に兼任で所属しています。彼の研究は化学工学とコンピュータサイエンスの境界をまたぐものであり、膨大な数の可能な化学化合物を分析し、新しい化合物を設計し、それらを生成する反応経路を予測するための計算モデルを開発・展開することに注力しています。
「これは有機分子のあらゆる応用分野に適用できる非常に一般的なアプローチですが、私たちが主に想定しているのは小分子医薬品の発見です」と彼は述べています。
AI と科学の交差点
コリー氏の科学への関心は家系に受け継がれています。実際、彼によれば、家族には非科学者よりも科学者のほうが多く、父は放射線科医であり、母は分子生物物理学と生化学の学位を取得した後に MIT スローン経営大学院に進学し、祖母は数学の教授です。
オハイオ州ダブリンの高校生だったころ、コリーはサイエンス・オリンピックの競技に参加し、16 歳で高校を卒業しました。その後、カリフォルニア工科大学(Caltech)に進学し、科学と数学への関心を結びつける手段として化学工学を専攻することに決めました。
学部生時代にはコンピュータサイエンスにも興味を持ち、構造生物学の研究室でフォートランプログラミング言語を用いてタンパク質の結晶構造の解明に取り組んでいました。カリフォルニア工科大学を卒業した後、彼はさらに化学工学の道を進むことを決意し、2014 年に MIT に入学して博士課程を開始しました。
クラウス・ジェンセン教授とウィリアム・グリーン教授の指導のもと、コリーは自動化された化学反応の最適化方法に取り組んでいました。彼の研究は、機械学習とケミインフォマティクス(化学データを分析するための計算手法の応用)を組み合わせ、新しい薬物分子を合成可能な反応経路を計画することに焦点を当てていました。また、それらの反応を自動的に実行できるハードウェアの設計にも取り組んでいました。
その研究の一部は、DARPA が資金を提供する「Make-It」というプログラムを通じて行われました。このプログラムは、機械学習とデータサイエンスを活用して、単純な構成要素から医薬品やその他の有用な化合物の合成を改善することに重点を置いていました。
「それが私がケミインフォマティクスについて考え、機械学習について考え、そして異なる化学物質がどのように作られ、どのような反応が可能かをモデルを使って理解する方法を考えるようになった本当の入り口でした」とコリーは語っています。
コリーは大学院生時代から教員職の応募を開始し、25 歳の時に MIT からオファーを受け入れました。同じ大学院出身校で働くことへの賛否両論のアドバイスをもらいましたが、最終的には MIT のポジションを断るにはあまりにも魅力的だと判断しました。
「MIT はリソースや部門間の流動性という点で非常に特別な場所です。AI と科学の交差点をサポートする取り組みが非常にうまく機能しているように見え、そこで働き続けるのに活気あるエコシステムでした」と彼は語ります。「学生の質、学生の情熱、そして何よりも協力のすばらしい強さが、同じ場所に留まることへの潜在的な懸念を完全に上回っていました。」
化学的直感
コリーは教員職の開始を 1 年間延期し、ブロード研究所でポスドクを行いました。そこで彼は、化学生物学や創薬に関するより多くの経験を積むことを目指しました。ここでは、疾患に関連する変異タンパク質との結合相互作用を持つ可能性のある小分子を、DNA エンコードライブラリ中の数十億の候補から同定する方法について研究していました。
2020 年に MIT に復帰した後、彼は既存の治療有望化合物の合成だけでなく、望ましい特性を持つ新規分子やそれらを作る新たな方法の設計にも AI を活用するミッションのもとに研究室を設立しました。過去数年間で、彼の研究室はこれらの目標に取り組むためにさまざまな計算アプローチを開発してきました。
「私たちは、化学における課題と潜在的な計算による解決策をどのように最良の組み合わせにするかを考えようとしています。そして多くの場合、その組み合わせが新しい手法の開発動機となります」とコリー氏は述べています。同氏の研究室が開発したモデルの一つである ShEPhERD は、薬物分子の三次元形状に基づいて標的タンパク質との相互作用を評価し、潜在的な新薬分子を評価するように訓練されています。このモデルは現在、製薬会社が新薬を発見するのを支援するために使用されています。
「私たちは、生成モデルに医薬化学的な直感をより多く与えようとしています。そうすることで、モデルが適切な基準や考慮事項を意識できるようにするためです」とコリー氏は述べています。
別のプロジェクトでは、コリー氏の研究室は、異なる化学入力物を組み合わせることで生じる反応生成物を予測するために使用できる、FlowER という名前の生成 AI モデルを開発しました。
そのモデルを設計する際、研究者らは質量保存の法則などの基本的な物理原則に関する理解を組み込みました。また、反応物から生成物に至る経路で起こる必要がある中間段階の実行可能性もモデルに考慮させるよう強制しました。これらの制約により、研究者らはモデルの予測精度が向上することを見つけました。
「その中間段階や関与するメカニズム、反応がどのように進行するかを考えることは、化学者が非常に自然に行うことです。これは化学の教え方にも通じますが、モデルが本能的にそのようなことを考えるわけではありません」とコリーは言います。「私たちは、機械学習モデルが反応メカニズムの理解に基づいていること、つまり専門家である化学者と同じように扱われることを確実にするために、多くの時間を費やしてきました。」
彼の研究室の学生たちはまた、化学反応の最適化に関連するさまざまな分野で活動しており、これにはコンピュータ支援構造解析、実験室自動化、最適な実験設計などが含まれます。
「これらの多様な研究スレッドを通じて、私たちは化学における AI の最前線を前進させることを目指しています」とコリーは述べています。
原文を表示
Among all of the possible chemical compounds, it’s estimated that between 1020 and 1060 may hold potential as small-molecule drugs.
Evaluating each of those compounds experimentally would be far too time-consuming for chemists. So, in recent years, researchers have begun using artificial intelligence to help identify compounds that could make good drug candidates.
One of those researchers is MIT Associate Professor Connor Coley PhD ’19, the Class of 1957 Career Development Associate Professor with shared appointments in the departments of Chemical Engineering and Electrical Engineering and Computer Science and the MIT Schwarzman College of Computing. His research straddles the line between chemical engineering and computer science, as he develops and deploys computational models to analyze vast numbers of possible chemical compounds, design new compounds, and predict reaction pathways that could generate those compounds.
“It’s a very general approach that could be applied to any application of organic molecules, but the primary application that we think about is small-molecule drug discovery,” he says.
The intersection of AI and science
Coley’s interest in science runs in the family. In fact, he says, his family includes more scientists than non-scientists, including his father, a radiologist; his mother, who earned a degree in molecular biophysics and biochemistry before going to the MIT Sloan School of Management; and his grandmother, a math professor.
As a high school student in Dublin, Ohio, Coley participated in Science Olympiad competitions and graduated from high school at the age of 16. He then headed to Caltech, where he chose chemical engineering as a major because it offered a way to combine his interests in science and math.
During his undergraduate years, he also pursued an interest in computer science, working in a structural biology lab using the Fortran programming language to help solve the crystal structure of proteins. After graduating from Caltech, he decided to keep going in chemical engineering and came to MIT in 2014 to start a PhD.
Advised by professors Klavs Jensen and William Green, Coley worked on ways to optimize automated chemical reactions. His work focused on combining machine learning and cheminformatics — the application of computation methods to analyze chemical data — to plan reaction pathways that could make new drug molecules. He also worked on designing hardware that could be used to perform those reactions automatically.
Part of that work was done through a DARPA-funded program called Make-It, which was focused on using machine learning and data science to improve the synthesis of medicines and other useful compounds from simple building blocks.
“That was my real entry point into thinking about cheminformatics, thinking about machine learning, and thinking about how we can use models to understand how different chemicals can be made and what reactions are possible,” Coley says.
Coley began applying for faculty jobs while still a graduate student, and accepted an offer from MIT at age 25. He received a mix of advice for and against taking a job at the same school where he went to graduate school, and eventually decided that a position at MIT was too enticing to turn down.
“MIT is a very special place in terms of the resources and the fluidity across departments. MIT seemed to be doing a really good job supporting the intersection of AI and science, and it was a vibrant ecosystem to stay in,” he says. “The caliber of students, the enthusiasm of the students, and just the incredible strength of collaborations definitely outweighed any potential concerns of staying in the same place.”
Chemistry intuition
Coley deferred the faculty position for one year to do a postdoc at the Broad Institute, where he sought more experience in chemical biology and drug discovery. There, he worked on ways to identify small molecules, from billions of candidates in DNA-encoded libraries, that might have binding interactions with mutated proteins associated with diseases.
After returning to MIT in 2020, he built his lab group with the mission of deploying AI not only to synthesize existing compounds with therapeutic potential, but also to design new molecules with desirable properties and new ways to make them. Over the past few years, his lab has developed a variety of computational approaches to tackle those goals.
“We try to think about how to best pair a challenge in chemistry with a potential computational solution. And often that pairing motivates the development of new methods,” Coley says. One model his lab has developed, known as ShEPhERD, was trained to evaluate potential new drug molecules based on how they will interact with target proteins, based on the drug molecules’ three-dimensional shapes. This model is now being used by pharmaceutical companies to help them discover new drugs.
“We’re trying to give more of a medicinal chemistry intuition to the generative model, so the model is aware of the right criteria and considerations,” Coley says.
In another project, Coley’s lab developed a generative AI model called FlowER, which can be used to predict the reaction products that will result from combining different chemical inputs.
In designing that model, the researchers built in an understanding of fundamental physical principles, such as the law of conservation of mass. They also compelled the model to consider the feasibility of the intermediate steps that need to take place on the pathway from reactants to products. These constraints, the researchers found, improved the accuracy of the model’s predictions.
“Thinking about those intermediate steps, the mechanisms involved, and how the reaction evolves is something that chemists do very naturally. It’s how chemistry is taught, but it’s not something that models inherently think about,” Coley says. “We’ve spent a lot of time thinking about how to make sure that our machine-learning models are grounded in an understanding of reaction mechanisms, in the same way an expert chemist would be.”
Students in his lab also work on many different areas related to the optimization of chemical reactions, including computer-aided structure elucidation, laboratory automation, and optimal experimental design.
“Through these many different research threads, we hope to advance the frontier of AI in chemistry,” Coley says.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み