カスタマイズされたAmazon Novaモデルが創薬における分子特性予測を改善
アマゾン科学研究所はNimbus Therapeuticsと連携し、SFTとRFTでカスタマイズしたLLM(Amazon Nova)によりGNNに匹敵する分子予測を実現し、創薬プロセスの効率化と対話型アシスタントの実現を目指す。
キーポイント
従来のGNN課題の一元化
複数の専門モデルを個別に構築・維持する必要があった従来のグラフニューラルネットワーク(GNN)の運用コストと複雑さを、単一のカスタムLLMで解決する。
SFTとRFTによるカスタマイズ手法
汎用LLMに教師あり微調整(SFT)と強化学習微調整(RFT)を適用し、複数GNNに匹敵する予測精度を短時間・低労力で達成した。
ワークフローの簡素化と対話機能
単一クエリで複数特性を予測可能にし、新特性の追加にはモデル再構築ではなく増分微調整で対応。さらに出力根拠の説明や分子修正の提案など対話型機能を実現。
創薬プロセスの革新への貢献
承認率8%、10-15年・20億ドルの従来課題に対し、AIアシスタントが設計と予測を統合し、リーンなバイオチームの協業を可能にする次世代基盤を示唆。
影響分析・編集コメントを表示
影響分析
本稿は、創薬分野におけるAI適用のパラダイムシフトを示唆しており、従来の専門特化型モデル依存から汎用LLMのドメイン適応へ移行する実証ケースとして重要である。単一モデルによる一元化と対話機能の統合は、バイオ企業のコスト削減とイノベーション速度を加速させる基盤となる一方、臨床承認率向上への直接的な実証はまだ初期段階にあるため、今後の大規模検証と規制対応が鍵となる。
編集コメント
GNNに代わるLLM活用事例として実用性は高いが、創薬の核心である臨床試験段階での精度検証と規制当局との対話プロセスが確立されていない現状では、あくまで「設計・予測支援ツール」としての位置づけが現実的である。今後の大規模実証とデータ品質担保が、このアプローチの業界標準化を左右する。
近年、大規模言語モデル(LLM)はソフトウェアエンジニアや知識労働者にとって不可欠なアシスタントとなっています。ニンバス・セラピューティクス(Nimbus Therapeutics)は、AmazonのGenerative AI Innovation CenterおよびArtificial General Intelligence(AGI)組織に依頼し、新薬を発見する医薬品化学者のために同等に優れたアシスタントを作成可能かどうかを調査しました。このようなエージェントは、薬物発見の速度を大幅に向上させ、生命を救う可能性を秘めています。
薬物発見におけるAIは従来、グラフニューラルネットワーク(Graph Neural Networks, GNNs)と呼ばれるモデルを扱ってきました。GNNは製薬研究開発における分子特性予測の中核的な役割を果たしており、その理由も明白です:定義されたタスクにおいて高い精度を発揮するからです。通常、異なる分子特性ごとに専門化した複数のGNNを社内で作成・維持する必要があり、これは高コストで運用上複雑なプロセスです。近年、LLMがさまざまな研究領域で成功を収めていることがバイオテック企業の注目を集めていますが、薬物発見においては、汎用の市販LLMがGNNや他の計算手法よりも精度が低いことが証明されています。
私たちは、GNNの精度とLLMの汎用性・推論能力を組み合わせる新しいアプローチを採用しました。教師ありファインチューニング(Supervised Fine Tuning, SFT)と強化学習ファインチューニング(Reinforcement Fine Tuning, RFT)を用いて汎用LLMをカスタマイズすることで、時間と労力の大幅な削減により、複数のGNNを使用した場合に匹敵する結果を達成できました。ファインチューニングされたLLMは、大幅に簡素化されたワークフローを提供します。
従来の環境では、各GNNには独自の癖、データ形式、失敗モードを持つ個別のインターフェースがあります。結果は化学者が手動で統合しなければならない互いに無関係な数値として返されます。新しい特性を予測する必要がある場合、マルチタスクデータセットを構築し、完全に新しいモデルの学習と検証を行う必要があり、このプロセスには数週間かかることがあります。一方、単一のファインチューニングされたLLMにより、化学者は1つのクエリを送信し、関心のあるすべての分子特性の予測結果を受け取ることができます。新しい特性を追加するには、ゼロからモデルを構築するのではなく、増分的なファインチューニングを行うだけで済みます。さらに、言語モデルは質的に異なる能力である「会話」への扉を開きます。ファインチューニングされたLLMを使用すれば、モデルの出力背后的な推論を求めたり、望ましい特性をもたらす可能性のある分子修飾案を提案したりすることが可能になります。これは、分子特性の予測と生成を1つのインタラクティブな体験で統一するアシスタントを示唆しており、AI支援型薬物設計における理想的な次のステップと見なしています。カスタマイズされたLLMはドメイン固有の科学者アシスタントを解放し、少人数のバイオテックチームに、自らの科学的言語で話すAIシステムと協力する実用的な方法を提供します。
現在、単一の薬を市場に出すには10〜15年かかり、平均コストは20億ドルを超え、臨床試験に入る薬物候補の約8%しかFDA承認を得ていません。私たちは、化学者がドラッグライクな特性を持つ分子を設計するこのパイプラインの初期段階において、AIアシスタントが生産性を特に向上させられると考えています。開発速度と有望な候補の数を増やすことで、安全で効果的な薬を臨床現場に届ける機会を最大化できます。
調査対象
ニンバス・セラピューティクスとの共同作業は、薬物開発において重要な3つのカテゴリにまたがる特性に焦点を当てました:親油性(Lipophilicity、関連する特性1つ)は、分子が生物膜を透過できるかどうかを決定します。これは薬物の吸収と分布に根本的であり、薬の他のすべての特性に影響を与えます。透過性(Permeability、関連する4つの特性)は、薬が血流を通じて体に入る容易さを測定します。クリアランス(Clearance、6つの特性)は、体が薬を除去する速度を決定します。除去に時間がかかりすぎる薬は毒性を持つ可能性があり、速すぎると効果が発揮されません。これらの特性は異なる値の範囲にまたがり、複雑な相互依存関係を示しており、実際には個別のマルチタスクGNNモデルを必要とします。
私たちは、特定の分子についてこれら3つの特性セットすべてを予測するタスクにおいて、汎用LLMであるClaude Sonnet 4とNova 2 Liteをテストしました。他の分野での印象的な能力にもかかわらず、これらのモデルは専門的なGNNに対して著しく劣っており、特性によっては平均二乗誤差(Root Mean Squared Error, RMSE)で測定して40%から200%以上の誤差という精度の差が見られました。しかし、教師ありファインチューニング(SFT)に続き強化学習ファインチューニング(RFT)を施したNova 2 Liteが、この差を埋められることを発見しました。単一のファインチューニングされたLLMは、複数の別々に訓練されたマルチタスクGNNモデルと同様の精度で、11の異なる分子特性を予測しました。
手法
LLMのファインチューニングへのアプローチは、人間の専門知識の習得と機械学習の両方に共通する原則に従っています:基礎的な知識がパフォーマンスの最適化に先行する必要があります。SFTの間、モデルは分子構造と特性の関係などのコア概念を学習しました。その後、RFTでは、練習とフィードバックを通じて予測的判断の開発に訓練がシフトしました。
SFT中、Nova 2 Liteは11の特性に関する実験測定値でラベル付けされた55,000以上の分子にさらされました。SFTが不可欠だったのは、モデルに要求されたドメイン固有のタスクが、Nova 2 Liteの汎用的な事前学習データから遠く離れているためです。例えば、化学構造を表すためにSMILES(Simplified Molecular-Input Line-Entry System)という表記法を使用します。SFTがなければ、LLMは「SMILES文字列から構造化JSON形式で化学的特性を予測する」といったタスクを実行できませんでした。
2番目の訓練段階である強化学習ファインチューニング(RFT)は、実験データが限られている特性において特に重要で、SFTだけでは一般化が困難な場合に役立ちます。RFTはまた、特性間でのモデル内学習の転送を可能にします。例えば、親油性は透過性に影響し、両方が代謝予測の参考になります。さらに、RFTはパターンマッチング(「分子Xが与えられた場合、類似例に基づいて値Yを出力」)から品質最適化(「すべての特性にわたる予測誤差を最小化する」)への学習目標をシフトさせます。
私たちは、訓練中に未見だった15,000の分子に対してSFTおよびRFTモデルをテストしました。また、コア化学の知識と関心のある11の化学特性(定義および期待される値範囲を含む)を網羅するシステムプロンプトも構築しました。RFT段階では、学習プロセスをガイドする生成された報酬(rewards)について3つの戦略を実験しました。分子特性の予測は、出力が単一の数値であるため、RFTにおける報酬エンジニアリングに特に適しており、各予測が真の値からどれほど離れているかを正確に測定できます。
最初の戦略は指数関数的減衰関数を使用することでした。これにより、真の値に近い予測には指数関数的に高い報酬が与えられました。しかし、誤差が高い場合、「ひどい」状態から単に「悪い」状態への改善はほとんど報酬の違いを生まず、モデルが悪質な予測から学習することを妨げました。一方、誤差が低い場合、小さな変化が大きな報酬の違いにつながり、報酬信号がノイズが多く、最終的に役に立たないものとなりました。
2番目の戦略であるバイナリ合格/不合格報酬は、逆の問題を生み出しました。モデルは段階的な改善に対してゼロの強化を受け取りました:任意の閾値(この場合、10%以内の正解)を超えれば学習し、超えなければ何も学習しないというものでした。1964年にスイスの統計学者ピーター・フーバーによって提案された外れ値の影響を制限する指標であるHuber損失に基づく報酬は、両方の問題を解決しました。指数関数的減衰とは異なり、Huber報酬は大きな誤差において無視できるほど小さくなりません——モデルは常に改善のための意味のある信号を受け取ります——一方で、正解付近では安定しており、小さな変動に過剰反応せずに予測を洗練させます。これにより、ベースラインに対して4.9%のR²改善という最良の結果が得られ、複数の分子特性を同時に学習する際のデフォルトとしてHuber報酬を使用しました。
このアプローチをマルチプロパティ学習に展開し、単一のモデルをファインチューニングして11の特性すべてを同時に予測させました。最もパフォーマンスの高いモデルは、フルランクSFTの上にRFTを適用したNova 2 Liteであり、これはすべてのモデルパラメータが更新されたことを意味します。平均RMSEにおいてClaude Sonnet 4を39%、ベースラインのNova 2 Liteを37%上回りました。ベースラインGNNに対して平均5%劣るものの、11の特性のうち7つでGNNと同等かそれ以上のパフォーマンスを発揮しました。これは、単一のLLMが複数の独立して訓練されたマルチタスクGNNモデルと互角に渡り合うことを考えると、驚くべき結果です。これにより、学習、デプロイメント、維持に関連するインフラストラクチャ全体のフットプリントだけでなく、モデル数自体も削減されています。
Nova Forge——Amazon Web Servicesの顧客が事前学習およびSFTの両方で独自データを使用できるサービス——は、SageMaker上でSFTとRFTの両方をサポートしており、広範なモデルのカスタマイズを可能にします。SageMakerが内部的に学習フレームワークとインフラストラクチャの維持を処理するため、組織はゼロからカスタム学習パイプラインを構築・維持するコストを回避できます。
今後の展望
これらの初期実験と結果に基づき、ニンバス・セラピューティクスは最近、Amazon Bedrock上で同社のNovusモデルを展開しました。NovusはNova Forgeを通じて作成された同社のカスタムビルドLLMです。現在の形態において、Novusは目的特化型GNNと競合する精度で分子特性の予測を処理します。次のマイルストーンは、これらの能力を分子設計へと拡張し、モデルが構造修飾案を提案し、その下流の特性を予測し、その推論を説明することを単一の会話内で可能にすることです。
謝辞
Leela Dodda (Nimbus), Aarush Garg (Nimbus), Matthew Medina (Nimbus), Md Tamzeed Islam, Elyse Zhang, Clement Perrot, Rohit Thekkanal, Shiv Vitaladevuni
原文を表示
In recent years, large language models (LLMs) have become indispensable assistants for software engineers and knowledge workers. Nimbus Therapeutics enlisted us at Amazon’s Generative AI Innovation Center and Artificial General Intelligence (AGI) organization to investigate whether it’s possible to make equally capable assistants for medicinal chemists discovering new drugs. Such an agent could significantly speed up drug discovery, potentially saving lives. AI in drug discovery has traditionally involved models called graph neural networks, or GNNs. GNNs are the workhorses of molecular-property prediction across pharmaceutical R&D, and for good reason: they deliver strong accuracy on well-defined tasks. Typically, multiple GNNs, specialized for different molecular properties, have to be built and maintained in-house — an expensive, operationally complex process. In recent years, the success of LLMs in a variety of research domains has caught the eye of biotech firms, but for drug discovery, general, off-the-shelf LLMs have proven to be less accurate than GNNs or other computational methods. We have adopted a new approach that combines the accuracy of GNNs with the generalizability and reasoning ability of LLMs. Using supervised fine tuning (SFT) and reinforcement fine tuning (RFT) to customize a general-purpose LLM, we were able to achieve results comparable to those of using multiple GNNs, at a fraction of the time and labor. Fine-tuned LLMs offer a significantly simplified workflow. In the traditional setting, each GNN has a separate interface, with its own quirks, data formats, and failure modes. Results come back as disconnected numbers that the chemist must manually integrate. When a new property needs to be predicted, someone must construct a multitask dataset and train and validate an entirely new model, a process that can take weeks. In contrast, a single, fine-tuned LLM allows a chemist to submit one query and receive predictions on all molecular properties of interest. Adding a new property requires incremental fine tuning rather than building a new model from scratch. Moreover, a language model opens the door to a qualitatively different capability: conversation. With a fine-tuned LLM, it’s now possible to ask for the reasoning behind the model outputs or to suggest molecular modifications that might yield the desired properties. This points toward an assistant that unifies molecular-property prediction and generation in one interactive experience, which we see as the ideal next step for AI-assisted drug design. Customized LLMs unlock domain-specific scientific assistants, giving lean biotech teams a practical way to collaborate with AI systems that speak their scientific language. Today, bringing a single drug to market takes 10 to 15 years and costs on average over $2 billion, with only about 8 percent of drug candidates that enter clinical trials receiving FDA approval. We believe that AI assistants could particularly improve productivity in the early stages of this pipeline, where chemists design molecules with druglike properties. Increasing the speed of development and the number of viable candidates would maximize the chances of delivering a safe and efficacious drug to the clinic. What we looked at Our work with Nimbus Therapeutics focused on properties spanning three categories critical to drug development: Lipophilicity (which has one associated property) determines whether a molecule can cross biological membranes. It is fundamental to drug absorption and distribution and affects all other characteristics of a drug. Permeability (four associated properties) measures how easily a drug enters the body via the bloodstream. Clearance (six properties) determines how quickly the body eliminates a drug. A drug that takes too long to be cleared could become toxic; one that is cleared too quickly won’t be effective. These properties span different value ranges and exhibit complex interdependencies — in practice requiring separate multitask GNN models . We tested the general-purpose LLMs Claude Sonnet 4 and Nova 2 Lite on the task of predicting all three sets of properties for particular molecules. Despite their impressive capabilities elsewhere, the models significantly underperformed specialized GNNs, with an accuracy gap that ranged from 40% to over 200% error, as measured by the root mean squared error (RMSE), depending on the property. However, we discovered that Nova 2 Lite with supervised fine tuning (SFT), followed by reinforcement fine tuning (RFT), could close that gap. Our single, fine-tuned LLM predicted 11 different molecular properties with accuracy similar to that of multiple separately trained multitask GNN models. How we did it Our approach to fine-tuning the LLM follows a principle common to both human-expertise development and machine learning: foundational knowledge must precede performance optimization. During SFT, the model learned core concepts such as molecular structure and property relationships. Then, during RFT, training shifted to the development of predictive judgment through practice and feedback. During SFT, we exposed Nova 2 Lite to more than 55,000 molecules labeled with experimental measurements across 11 properties. SFT was essential because the domain-specific tasks we asked the model to perform fall far outside Nova 2 Lite’s generalized pretraining data. For example, we use a notation called SMILES (simplified molecular-input line entry system) to represent chemical structures. Without SFT, the LLM wouldn’t have been able to perform a task like “predict chemical property from SMILES strings in structured JSON format”. The second training stage, reinforcement fine tuning (RFT), is especially critical for properties with limited experimental data, where SFT alone struggles to generalize. RFT also enables the intramodel transfer of learning across properties. For instance, lipophilicity affects permeability, and both can inform metabolism predictions. Further, RFT shifts the learning objective from pattern matching ("given molecule X, output value Y based on similar examples") to quality optimization ("minimize prediction error across all properties"). We tested the SFT and RFT models on 15,000 molecules unseen during training. We also built a system prompt that encompassed a knowledge of both core chemistry and our 11 chemical properties of interest, including their definitions and expected value ranges. During the RFT stage, we experimented with three strategies for generated rewards, which guided the learning process. Molecular-property prediction is particularly amenable to reward engineering for RFT since the output is a single number, which allows us to measure exactly how far off each prediction is. Our first strategy was to use an exponential decay function, so predictions closer to the true value received exponentially higher rewards. But at high error, improving from “terrible” to merely “bad” yielded almost no reward difference, keeping the model from learning from its worst predictions, while at low error, small changes resulted in large reward differences, which made the reward signal noisy and ultimately unhelpful. Our second strategy, binary pass/fail rewards, created the opposite problem. The model received zero reinforcement for gradual improvement: it either crossed an arbitrary threshold (in our case, correct within 10 percent) or learned nothing. Rewards based on the Huber loss — a metric proposed in 1964 by the Swiss statistician Peter Huber, which limits the influence of outliers — solved both issues. Unlike exponential decay, Huber rewards don't become negligible on large errors — the model always receives a meaningful signal to improve — yet they remain stable near the correct answer, refining predictions without overreacting to small fluctuations. This yielded our best result, a 4.9% R² improvement over baseline, and we used the Huber reward as the default for training the model on multiple molecular properties simultaneously. Carrying this forward into multiproperty training, we fine-tuned a single model to predict all 11 properties simultaneously. Our best-performing model was Nova 2 Lite with RFT on top of full-rank SFT, meaning that all the model parameters were updated. It outperforms Claude Sonnet 4 by 39% and base Nova 2 Lite by 37% on average RMSE. While averaging 5% behind the baseline GNN, it matches or outperforms the GNN on 7 of 11 properties — a striking result given that a single LLM is going toe-to-toe with multiple independently trained multitask GNN models, reducing not just model count but the entire infrastructure footprint around training, deployment, and maintenance. It’s important to note that Nova Forge — a service that allows Amazon Web Services customers to use proprietary data during both pretraining and SFT — supports both SFT and RFT on SageMaker, enabling extensive model customization. Since SageMaker handles the training framework and infrastructure maintenance internally, organizations avoid the cost of building and maintaining custom training pipelines from scratch. What’s next? Based on these initial experiments and results, Nimbus Therapeutics recently deployed its Novus model on Amazon Bedrock. Novus is the company’s custom-built LLM, created through Nova Forge. In its current form, Novus handles molecular-property prediction with an accuracy that is competitive with purpose-built GNNs. The next milestone is extending those capabilities toward molecular design, enabling the model to propose structural modifications, predict their downstream properties, and explain its reasoning, all in a single conversation. Acknowledgements Leela Dodda (Nimbus), Aarush Garg (Nimbus), Matthew Medina (Nimbus), Md Tamzeed Islam , Elyse Zhang, Clement Perrot, Rohit Thekkanal, Shiv Vitaladevuni
関連記事
AWSがS3 Filesを導入、S3バケットへのファイルシステムアクセスを実現
AWSはS3 Filesを発表し、ユーザーがAmazon S3バケットをマウントして標準ファイルシステムインターフェースでデータにアクセスできるようにした。アプリケーションは標準ファイル操作で読み書きでき、システムが自動的にS3リクエストに変換するため、コンピュートサービスがS3に保存されたデータを直接扱える。
AWSが自動インシデント調査のためのDevOpsエージェントを一般提供開始
AWSは、開発者と運用者がAWS環境での問題のトラブルシューティング、デプロイメントの分析、運用タスクの自動化を支援する生成AI搭載アシスタント「DevOps Agent」の一般提供を開始した。
Amazon Bedrockの詳細なコスト帰属機能の導入
AWSがAmazon Bedrockの推論コストをIAMプリンシパルごとに自動的に帰属する機能を発表した。これにより、コストの内訳把握、コスト最適化、財務計画が容易になる。