LLM の拡散研究ではない、最も興味深い拡散研究とは?Genesis Molecular AI の Evan Feinberg と Sergey Edunov
Genesis Molecular AI は、LLM アーキテクチャの停滞に対し、3D 構造予測における拡散モデル(Diffusion)の革新により、小分子創薬の実用化に向けた画期的な進展を遂げている。
キーポイント
LLM 研究と創薬 AI の対比
現代の LLM 研究は Transformer ベースの変種に留まっている一方、創薬分野では拡散モデルを用いたアーキテクチャ革新が進行中である。
PEARL モデルによる柔軟性予測
Genesis のフラッグシップモデル「PEARL」は、タンパク質の柔軟性を理解し、リガンドとタンパク質の双方を微調整して最適な結合状態をモデル化できる。
実用化閾値の達成
従来の業界ベンチマークが「AI のゴミ(slop)」と見なしていたレベルを超え、PEARL は現実世界での応用に必要な精度を安定的に達成している。
アジェンティック・ワークフロー
高精度なモデルの登場により、創薬プロセスにおける自律的な発見(Agentic Discovery)ワークフローが新たに可能になった。
分子探索の複雑性と相反する要件
10^60 通りの可能性から安全な分子を見つけるのは困難であり、結合能と ADMT プロパティ(溶解性など)はしばしばトレードオフの関係にある。
自律型ドラッグディスカバリーシステムの進化
Genesis の「SAPPHIRE」システムが化学者のように仮説形成や文献読解を行い、自動実験パートナーシップと組み合わせることで 24/7 の探索が可能になりつつある。
評価基準の限界と厳格化の必要性
従来の「2Å RMSD」は誤った分子配置を見逃す危険性があり、正確な相互作用をモデル化するには「1Å RMSD」が不可欠であると主張されている。
影響分析・編集コメントを表示
影響分析
この記事は、AI 創薬分野における技術パラダイムシフトを示唆しており、LLM の延長線上ではなく、拡散モデルが小分子創薬のボトルネックを解決する鍵となることを明確に伝えています。これにより、従来の計算コストや精度の限界を超え、より現実的な医薬品開発プロセスへの AI 統合が加速すると予想されます。
編集コメント
LLM の成熟化が限界を迎える中で、創薬という実社会課題に対して拡散モデルが新たなフロンティアを開拓している点は極めて重要です。技術の適用領域が「言語処理」から「物理・化学的構造予測」へシフトする象徴的な事例と言えます。
このエピソードには面白い個人的な側面があります。もし私が数週間前に少し早く紹介されていたら、今日のエピソードの背景にある会社である Genesis Molecular AI の創設者 #1 になっていたという反実仮想の世界が存在します。しかし、その紹介は数週間遅れてしまい、私はすでに別の ML を用いた創薬スタートアップである Atomwise に喜んで入社していました。同じ問題ですが、異なる会社です。私は機械学習が小分子医薬品の発見を根本から変えるだろうと確信していました。初期の結果は期待ほどではありませんでした。時々は有用でしたが、革命的とは程遠いものでした。しかし、過去 1 年間で、機械学習がついに私が 10 年前に抱いていた信念を実現する準備ができているという兆候を目撃しました。Genesis はついにこの問題の解決策を見つけた可能性のある企業のひとつです。私は創設者である Evan Feinberg と CTO の Sergey Edunov に再会し、再び原点に戻って話を聞けることを非常に楽しみにしていました。
小分子医薬品の発見に興味をお持ちの方なら、きっとこの内容が魅力的に感じられるはずです!
ほぼ 2 時間にわたる私たちの対談では、以下のトピックを取り上げました:
小分子医薬品の発見とは何か、そしてなぜそれが難しいのか
AI アルゴリズムにおける構造予測がイノベーションの最前線となっている理由
他の分野での AI の進歩が、予測精度を段階的に向上させることを可能にした仕組み
コミュニティによるベンチマークが、本質的に「AI によるゴミ」を十分だと評価している現状
Genesis のフラッグシップモデル(PEARL)は、実世界での応用に必要な閾値を常時達成できる
これらの高精度なモデルによって実現された新しいエージェント型ワークフロー
続きをお読みいただき、最後に未来に関する個人的な考えも述べさせていただきます。
最もクールな拡散モデルの研究は Genesis で行われています
Sergey Edunov は、Meta で Llama 2 のトレーニングと Llama 3 の事前学習を率いた後、Genesis に移籍しました。元々物理学者だった Sergey は、長年にわたる大規模言語モデル(LLM)のトレーニングを経て、物理学とは縁が切れたと考えていました。しかし、Genesis を発見し、同社が開発している画期的なアーキテクチャに関するすべての取り組みに驚嘆しました。
おそらく誰も驚かないことですが、トランスフォーマーが登場して以来、現代の LLM 研究は本質的に新規かつ刺激的なアーキテクチャの更新をもたらしていません。事実上、この分野全体が「Attention is all you need」という元論文で発表された同じアイデアの変種を使用しているのです。確かに、いくつかの手法は非常に有用でした(特に混合专家モデル(MoE)は、現在の巨大モデルのパラダイムを可能にしました)、しかし概念的に刺激的なものはほとんどありませんでした。
「私たちは適切なプリミティブが生まれるのを待つしかなかったのですが、それが拡散モデルであることがわかりました…実際、私たちの分野で現在行われている最も革新的な拡散モデル研究の多くは、3D 構造予測において行われています。」— Evan Feinberg
一方、3D 構造予測の分野は研究のホットスポットとなってきました。Genesis の最近のモデル PEARL(Place Every Atom at the Right Location)はタンパク質の柔軟性を理解し、リガンドがどこへ行くかだけでなく、タンパク質に小さな調整を加えることで、両者が単独で存在するよりもよく適合するようにモデル化できます。この分野では長らくこれが欠けていることが知られていましたが、これまでそれをモデル化するのは非常に困難でした。
Agentic Discovery(エージェント型発見)
なぜこの問題がこれほど難しいのでしょうか?Sergey が指摘するように、薬物様小分子には 10^60 通りの可能性があります。それらすべてを検索することは決してできず、良いものを見つけることは干し草の山の中で針を探すようなものです—ただし、針以外のすべてが危険であるという点で異なります。
「宇宙には 10 の 60 乗の薬物様小分子が存在します…それは、針以外のすべてが非常に非常に危険な干し草の山の中で針を見つけるようなものです。」— Sergey Edunov
「あるいは、干し草の山ではなく、針の束の中から干し草を探す方がより適切な比喩かもしれません。」— Evan Feinberg
多パラメータ最適化問題を解決しようとすることはさらに悪化します。強い結合能を持つことと、優れた「ADMET 特性」3 を持つことは、しばしば互いに緊張関係にあります。例えば、良い結合体は油っぽい傾向がありますが、油っぽい分子は不溶性である可能性が高く、そのため血流に入り必要な場所へ到達できないのです!
Genesis の生成 AI における進展により、ついに自律型ドラッグディスカバリーループが可能となる閾値を超えたと考えています。LLM の初期の頃を思い出すでしょう。当時は素晴らしいチャットボットでしたが、エージェントとしては極めて不十分でした。小さなエラーが連鎖してすぐに無用なものとなってしまうからです。LLM が改善されるにつれて、エージェントの実用性も急速に向上しました。エバンとセルゲイは、Genesis のモデルも最近同様の閾値を突破したと主張しています。彼らの内部自律型ドラッグディスカバリーシステム(コードネーム:SAPPHIRE)は、今や化学者のように反復処理が可能です:ポーズ(配向)を確認し推論し、仮説を立て、文献を読み込み、内部ツールを活用し、次の反復のための候補を作成するのです。これに Genesis が Incyte と提携しているような自動化されたラボパートナーシップを組み合わせることで、24 時間 365 日稼働して新しい分子の作成と試験を行うドラッグディスカバリーエージェントが実現する時代が間近に迫っています。エキサイティングな時代です!
ベンチマーク危機:誰もが好きなベンチマークはゴミである
十分に議論されていない驚くべき点の一つ:「共折りたたみ」の学術分野は、「良いポーズ」の指標として「2 アンストローム RMSD」というベンチマーク値に落ち着いています。エバンは遠慮なく、この閾値は単に悪いと断言します。おそらく欺瞞的なほどまでに悪いのです。多くの強結合体では、非常に明確なポーズが存在し、PDB の電子密度で直接解像できるものさえあります。にもかかわらず、2ÅのRMSD閾値を用いると、医薬化学者を誤解させるような方法で、ポーズを大きく外してしまう可能性があります。例えば、芳香環を反転させると、すべてが合理的に見えますが、実際には正しい相互作用をモデル化できなくなります。
エバンは、分子のコアが必要な場所にあり、すべての相互作用をモデル化するために確保するには、1ÅのRMSDが真に必要な閾値であると強く主張します。
「もしあなたのモデルが1.8、1.9アンストロームのRMSDにあるなら、それはたいていゴミです。」— エバン・ファインバーグ
簡単な例として、彼はタンパク質-リガンド系における最も重要な相互作用の多くを担う水素結合に言及しています。水素結合が有効となるのはわずか0.6Åの範囲内だけです!明らかに、すべての水素結合を正確に解像するためには、2Åの閾値よりもはるかに優れた性能が必要であることは明白です。
これは明らかに、エバンとジェネシスにとって苦戦を強いられた教訓です。彼らの見解では、コミュニティはこれらのベンチマークに足止めされているのです。なぜなら、手法を開発するアカデミアの研究者たちは、実際のユーザーではないからです。エバンは、共折りたたみにおける新しい指標である lDDT の使用など、生命の兆候も見ています。早くもコミュニティが「1.8Å RMSD はゴミだ」と合意し、このはるかに困難な課題に対してヒルクライミング(局所最適化)を開始することを願っています。
従来のベンチマークにおける弱点をより徹底的に探求したい場合は、PEARL 技術レポートをご覧ください。
PEARL が OpenBind で首位に立つ
それが、次に何が起こったのかをさらに際立たせています。ポッドキャストのほぼ終盤で、ジェネシスに関する最近の「実証済みの瞬間」について話しました。つまり、直近で公開された OpenBind ベンチマークにおいて、彼らの PEARL モデルを評価したのです。このベンチマークでは、標的タンパク質 EV-A71 に対して、これまで見たことのない 802 の共複合体が掲載されていました。この標的は、古典的なドッキング手法の多くに問題を抱えさせるために、ほぼ特別に選ばれたかのようです。リガンドが主要な結合部位に結合すると、タンパク質が移動して、リガンドが結合ポケットに入る際に使用した経路を塞ぎます。このプロセスは「誘導適合(induced fit)」として知られており、従来の手法ではモデル化するのが notoriously 困難です。そのトレードオフは理解しやすいものです。タンパク質を静的な構造として扱う場合、リガンドを結合部位に配置することが難しくなります。一方、タンパク質を動的なものとして扱うと、解決までに長時間を要する複雑なプロセスをシミュレーションする必要が生じます。
PEARL は、長時間の分子動力学シミュレーションを実行することなく、リガンドの誘導適合をモデル化することに成功しました。さまざまな評価指標において、PEARL は単に他の公開モデルを上回るだけでなく、多くの場合大幅に上回っていました。これは本当に印象的な結果です。
「PEARL が特に優れていた点は、このループをどのように動かすかを解明したことです。私たちはあらゆるポーズに対して基本的に正しい結果を得ています。」— Sergey Edunov
さらに興味深いことに、これはターゲットや相同ターゲットに関するデータを使用したり、微調整を行ったりすることなく達成されました。テンプレートとなる PDB データは、PEARL の学習カットオフ後に公開されたものです。
共折りたたみ(co-folding)の今後の展望はどうなるのでしょうか?
私は過去ほぼ 10 年にわたり、タンパク質 - リガンド相互作用における機械学習技術を追跡し、あるいは参加してきましたが、Genesis が最近発表した結果には心から感銘を受けました。これは長年の開発の成果であり、Evan とチームがこの地点に至るまでに多くの不眠夜を過ごしたことは間違いありません。また、他のチームも同様の進展を遂げていると考えられます。Isomorphic と Deep Origin もそれぞれ、計算科学、実験データ(wetlab data)、機械学習を組み合わせて、10 年前には不可能と思われた真の予測力を達成する結果を発表しています。残念ながら上記すべてがクローズドソースであるため、公平に比較することはできません。これらの結果を拝見すると、近い将来、タンパク質 - リガンド結合は「解決済み」とみなせる時代が来るかもしれません。
私は学術界がこの進展からインスピレーションを得てくれることを心から願っています。一度何かが可能だと知れば、実行に移すはずるはるかに容易になります。それでもなお、上記のすべての鍵となる推進要因は、機械学習(ML)、大規模計算、そして実世界の創薬応用との緊密な統合にあったと私は信じています。残念ながら、学術界にはそのような発展を容易にするような構造がまだ整っていません。
これらの別れの言葉をもって、ぜひこのポッドキャストをお聴きください!
1 当時はジェネシス・セラピューティクスと呼ばれていました
2 現在はヌメリオンと改名されています
3 ADMET とは吸収(Absorption)、分布(Distribution)、代謝(Metabolism)、排泄(Excretion)、および毒性(Toxicity)を指します。分子が「優れた薬」と見なされるためには、この約 30 の特性すべてを最適化する必要があります。
原文を表示
This episode has a fun personal twist: There’s a counterfactual world where I was employee #1 at Genesis Molecular AI,1 the company behind today’s episode. A certain introduction happened a few weeks too late and I had already happily signed at Atomwise2, another ML-for-drug-discovery startup. Same problem, different company. I was certain ML was going to transform small molecule drug discovery. Early results were underwhelming. Useful at times, but nowhere near revolutionary. In the last year I’ve seen signs that ML is finally ready to deliver on my convictions from a decade ago. Genesis is one of the places that might have finally cracked this problem. I was super excited to come full circle and catch up with co-founder Evan Feinberg and CTO Sergey Edunov.
If you are at all interested in small molecule drug discovery, we think you will find this fascinating!
In our nearly two hour chat we cover:
What is small molecule drug discovery, and why is it hard
Structure prediction as a hotbed of innovation in AI algorithms
How advances in AI elsewhere have enabled stepwise improvements in predictive power
How the community benchmarks are essentially calling AI slop good enough
The Genesis flagship model (PEARL) can routinely hit a threshold that is necessary for real-world applications
New agentic workflows enabled by these highly accurate models
Read on for more, and also some personal thoughts on the future at the end.
The coolest diffusion research is happening at Genesis
Sergey Edunov came to Genesis from Meta where he led Llama 2 training and Llama 3 pretraining. Sergey was a former physicist who thought he was done with physics after many years of training LLMs. Then, he discovered Genesis, and was blown away with all the novel architecture work they’ve been developing.
It probably surprises no one that modern LLM research has not resulted in fundamentally novel or exciting updates in architectures since almost the advent of the transformer — the entire field is using variants on the same idea that came out in the original “Attention is all you need” paper. Sure, some were quite useful (mixture-of-experts in particular allowed for the massive model paradigm we’re at today), but there was very little conceptually exciting.
“We sort of had to wait for the right primitive to get created, and that turned out to be diffusion… Actually, some of the most innovative diffusion research that’s happening in our field is happening in 3D structure prediction right now.” — Evan Feinberg
The field of 3D structure prediction on the other hand has been a hotbed of research. Genesis’ recent model PEARL (Place Every Atom at the Right Location) is able to understand protein flexibility, and model not just where the ligand goes, but also make small adjustments of the protein so that the two fit better than either alone. The field knew this was missing for a long time, but it was really hard to model until now.
Agentic Discovery
What makes this problem so hard? As Sergey points out, there are 10^60 possible drug-like small molecules. You’ll never be able to search them all, and trying to find the good ones is something like finding a needle in a haystack — except everything except your needle is dangerous.
“There are 10 to the 60 drug-like small molecules in the universe… it’s like finding a needle in a haystack, where everything except your needle is very, very dangerous.” — Sergey Edunov
“Or finding hay in a needle stack might be a more apt analogy.” — Evan Feinberg
Trying to solve the multi-parameter optimization problem is even worse. What makes a strong binder and a molecule with good “ADMET Properties”3 are oftentimes at tension with each other. For example, a good binder is likely greasy, but a greasy molecule is likely insoluble so it won’t enter the bloodstream and get to where it needs to go!
Genesis’ advances in generative AI have now pushed them beyond the threshold where they believe agentic drug discovery loops are finally possible. We all remember the early days of LLMs. They were great chatbots but terrible agents, as small errors compounded rapidly into uselessness. As LLMs got better, the usefulness of agents rapidly improved. Evan and Sergey argue that their models at Genesis recently passed a similar threshold. Their internal agentic drug-discovery system (code named SAPPHIRE) can now iterate like a chemist: look at and reason about poses, form hypotheses, read literature, use internal tools, create candidates for the next iteration. Combining this with automated lab partnerships like the one Genesis has with Incyte, we’re rapidly approaching a time of drug discovery agents running 24/7 making/testing new molecules. Exciting times!
Benchmark crisis: Everyone’s favorite benchmark is slop
One surprising point that isn’t talked enough about: the academic field of “co-folding” has settled on a benchmark value of “2 Angstrom RMSD” as a metric for a “good pose”. Evan does not mince words: this threshold is just bad. Perhaps even deceptively bad. For many strong binders, there’s a very clear pose, one that you can even directly resolve in the PDB electron density! And yet, with a 2Å RMSD threshold, you can get the pose quite wrong in ways that might even mislead a medicinal chemist. For example, flip around an aromatic ring, and everything looks reasonable, but you’re no longer modeling the right interactions.
Evan makes the strong claim that 1Å RMSD is really the threshold necessary to ensure the core of the molecule is sitting where it needs to be, and models all interactions.
“If your model is sitting at 1.8, 1.9 Angstrom RMSD, that’s slop, most likely.” — Evan Feinberg
As a simple example, he points out hydrogen bonds which are responsible for many of the most important interactions in protein-ligand systems. Hydrogen bonds only have a 0.6Å range to be valid! Clearly if you’re accurately resolving all H-bonds, you generally have to be doing much better than the 2Å threshold.
This is clearly a hard-fought lesson for Evan and Genesis. In their opinion, the community is stuck on these benchmarks because academics developing methods were not users. Evan does see signs of life, with the use of new metrics such as lDDT for co-folding. Hopefully soon the community can agree that “1.8Å RMSD is slop”, and start hill climbing on this much harder task.
For a more thorough exploration of the weaknesses in conventional benchmarks, see the PEARL technical report.
PEARL tops OpenBind
Which makes what happened next all the more striking. Near the end of the podcast, we talked about a recent “proof-is-in-the-pudding” moment for Genesis — evaluating their PEARL model on a recently released OpenBind benchmark. This benchmark featured 802 never before seen co-complexes on a target protein EV-A71. This target seems almost custom-chosen to give most classical docking methods a problem. When a ligand binds to the main binding site, the protein moves around to close off the path the ligand used to enter the binding pocket. This process, known as “induced fit” is notoriously hard for traditional methods to model. The tradeoff is easy to understand: treating the protein as a static structure, it becomes difficult to place a ligand in a binding pocket. Treat the protein as dynamic, and now you have to simulate complicated processes that take a long time to resolve.
PEARL was able to model the induced fit of the ligand without running long MD simulations. Across the different evaluation metrics, PEARL came out not just ahead, but oftentimes well ahead of any public model. A truly impressive result.
“Where PEARL was exceptionally good is figuring out how to move this loop. We are basically correct for every single pose.” — Sergey Edunov
Even more exciting, this was done without any fine-tuning, or using any data on the target or homologous targets — the template PDB was released after PEARL’s training cutoff.
Where does co-folding go now?
As someone who has followed or participated in ML techniques for protein-ligand interactions for almost a decade, I was genuinely impressed with the results that Genesis has released recently. This has been many years in development, and I’m sure Evan and the team had many sleepless nights trying to get to this point. I also think other teams are making similar progress — both Isomorphic and Deep Origin have released results that seem spiritually similar and combine computation, wetlab data, ML, to achieve genuine predictive power that seemed impossible a decade ago. Sadly, all of the above are closed source so there’s no way to honestly compare them. Looking at the results I think there might be a time in the not so distant future where we can consider protein-ligand binding “solved”.
I sincerely hope that the academic community can take inspiration from these developments. Once you know something can be done, it’s much easier to execute. Still, I believe that the key enabler in all of the above was the tight integration of ML, large-scale computation, and real-world drug discovery applications. Sadly academia is just not structured in a way that makes such a development easy.
With those parting thoughts, we hope you give the podcast a listen!
1At the time called Genesis Therapeutics
2Now called Numerion
3 ADMET stands for Absorption, Distribution, Metabolism, Excretion, and Toxicity. This set of about 30 properties all need to be optimized in order for a molecule to be considered a “good drug”.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み