AWSとジョンズ・ホプキンス大学、AI/ML抗体設計の画期的なデータベースを発表
AWSとジョンズ・ホプキンス大学は、AI/ML抗体設計のボトルネックを解消するため、大規模で多様な抗体開発可能性データセットを公開した。
キーポイント
抗体創製の課題とAIの潜在力
従来の抗体開発は時間とコストがかかる一方、バイオロジー基盤モデル(BioFM)やタンパク質言語モデル(pLMs)を用いたAI設計は発見期間の短縮とコスト削減の可能性を秘めている。
公開データセット不足の壁
既存の抗体データは単一フォーマットや臨床段階に偏っており、信頼性の高いin-silicoツールのベンチマークに必要な大規模で多様な実験データが不足していた。
AWSとJHUの連携による解決策
AWSとジョンズ・ホプキンス大学のGray Labは、実際の抗体エンジニアリングの配列空間を代表し、開発可能性の結果がバランスよく含まれる大規模公共データセットを構築・公開した。
現状のAIモデル限界と今後の展望
現在のAIモデルは溶解度や特異性といった重要な開発可能性特性をまだ reliably に予測できないが、本データセットの活用によりモデルの信頼性と実用性が大幅に向上する見込み。
影響分析・編集コメントを表示
影響分析
本データセットの公開は、AI創薬分野における「データの質と多様性」がモデル性能を決定する最重要課題への直接的な回答となる。研究者や製薬企業が標準化されたベンチマーク環境でモデルを評価・改善できるため、抗体設計のin-silico予測精度が飛躍的に向上し、創薬パイプライン全体の効率化とコスト削減に寄与する。これはバイオロジー基盤モデル(BioFM)の実用化を加速させる重要なマイルストーンである。
編集コメント
創薬AIのボトルネックはアルゴリズムよりも「高品質な学習データ」にあることを再確認させる発表である。公開データセットが業界標準ベンチマークとして定着すれば、各社のBioFMモデルの比較評価が容易になり、実用化への競争が加速するだろう。
1986年、米国食品医薬品局(FDA)は治療用抗体のヒト使用に対する最初の承認を発行しました。方法論、遺伝子シーケンシング、生物医学科学の着実な進歩にもかかわらず、40年後の治療用抗体の発見と最適化のプロセスは、コストと時間の両方の観点から依然として高すぎるものが多くあります。パンデミック様感染症のアウトブレイクに関する最近の経験は、これらの抗体をより迅速かつ効率的に同定し開発する必要性にさらなる緊急性を与えています。生物学的基盤モデル(BioFM)の形態における人工知能(AI)および機械学習による抗体設計アプローチは、これらの課題に対処する重要な機会を表しています。タンパク質言語モデル(pLMs)および構造ベースのディープラーニングフレームワークを使用して構築されたモデルは、分子が治療薬として製造可能、安定、かつ安全であるかどうかを決定する特性である抗体のdevelopability(開発可能性)プロパティを予測する大きな可能性を持っています。これらのツールの開発は、発見のタイムラインを劇的に短縮すると同時に実験コストも削減する可能性があります。しかし、その可能性は、研究者がこれらのツールをベンチマークできる公共のデータセットの欠如によって阻害されてきました。これは、信頼性の高いin-silico(コンピュータシミュレーション)創薬ツールの開発において重要なステップです。既存の公共抗体データセットがありますが、それらはしばしば単一の抗体フォーマットや標的への焦点によって制限されています。他のデータセットは自然に発生するものまたは臨床的に高度な抗体で構成されており、このバイアスは予測モデルのトレーニングや評価におけるその有用性を severely(著しく)制限します。「これらのモデルによって行われる予測に対する信頼は、十分に大きく多様な実験データとの評価に基づいて grounding(裏付け)されなければなりません」と、Amazon Bio Discoveryチームで働くAmazon Web Services(AWS)の応用科学者であるLuca Giancardo氏は説明します。「そのデータは、抗体エンジニアリング中に遭遇する実際のシーケンス空間を代表し、developability outcomes(開発可能性の結果)の観点からバランス取れている必要があります。」Jeffrey Gray氏は、Johns Hopkins Whiting School of Engineeringの化学・生物工学科の教授であり、タンパク質構造の計算的予測と設計に焦点を当てたGray Labを率いています。また、彼はRosettaDockのオリジナル開発者でもあり、これは構成タンパク質からタンパク質複合体の構造を予測するためのツールです。Gray氏は、AIが抗体特性の予測と設計において劇的な進歩を遂げたことに言及しつつ、自身のラボのベンチマークは現在のモデルが治療効率的な設計に必要な溶解度や特異性といった重要なdevelopability features(開発可能性の特徴)をまだ信頼して予測していないことを示していると指摘しました。彼は、モデルのトレーニングにおける主要な制限要因として、標準化された条件下での多様なデータの欠如を挙げました。これに加えて包括的で異質な大規模データベースの不在は、抗体開発のためのAIツールの開発の可能性に対する大きな引き金となっています。
抗体のdevelopabilityベンチマーク
その目的のため、AWSはGray LabおよびJohns Hopkins Engineeringとの協力により、Antibody Developability Benchmark(抗体開発可能性ベンチマーク)の開始を発表しました。これは、公共文献において最大かつ最も多様な抗体データセットによって駆動されるものです。これは、in-silico抗体プロパティ予測子の開発と厳格な評価をサポートするために設計された、抗体の生体物理的および生化学的特性の大規模ベンチマークの初めです。Antibody Developability Benchmarkは、現在科学文献で利用可能なベンチマークと比較して、抗体フォーマット、標的、およびdevelopabilityプロファイルの観点から20倍多様です。他のデータセットにはより多くの個々の抗体設計が含まれている場合もありますが、それらは通常、限られたプロパティカバレッジを持つ単一の標的または抗体フレームワークを探求します。Antibody Developability Benchmarkは、規模と異質性の組み合わせにおいて独自性を持ち、50のシード抗体、4つの構造フォーマット、および42のアンチゲンを包含しています。また、有利な結果と不利なdevelopability outcomes(開発可能性の結果)の両方を含みます。Gray氏はAWSの専門家との協力機会を称賛し、この協力が、公共で利用可能などのデータセットよりも大きく多様なデータセットの作成を可能にしたと指摘しました。彼は、このプロジェクトがAIによる人間健康の改善という約束を実現 towards( toward )重要な次の一歩であると呼びました。Antibody Developability Benchmarkは、複数のアンチゲンおよび変異戦略にわたって有利なおよび不利なdevelopabilityプロファイルを捉えるように明示的に設計された、最初の異質な抗体-プロパティデータセットを含みます。重要なのは、すべてのデータが湿式実験(wet-lab experiments)によって確認されており、既存の公共ベンチマークが欠如しているground truth validation(正解検証)を提供していることです。「このデータセットにより、研究者は『どのモデルが私たちの目的により適しているか?』という質問に自信を持って答えることができるようになります」と、データセットの開発を主導したBio DiscoveryチームのGiancardo氏は指摘しました。「現在、多くの計算モデルが出力されていますが、それらは主に独自データまたは抗体の異質性を代表していない公共データセット上で評価されています。つまり、何が優れているか劣っているかを決定することは、不可能ではないにしても非常に困難です。」Antibody Developability Benchmarkの比類ない多様性と意図的な異質性は、それらの決定を可能にするのに役立ちます。このプロジェクトで作業したJHUの博士研究員であるMichael Chungyoun氏は、ベンチマークが特にプロパティの観点から抗体の広い空間をカバーしていると観察しました。彼は、非常に多様なベンチマークに対して確認できるようにすることで、モデルを比較し最良のアプローチを選択するのを助けることで時間と労力を節約できると指摘しました。
抗体データセット
このデータセットは、4つの構造フォーマット(IgG、VHH、NearGermline-IgG、scFv)にまたがり、42の異なるアンチゲンを標的とする50の臨床的および科学的に関連するシード抗体で構成されています。これは、発現、純度、熱安定性、凝集、多反応性、および疎水性を測定します。これらは、生存可能な治療用抗体の開発において不可欠な6つの特性です。「この構成は意図的な設計選択です」とGiancardo氏は指摘しました。「私たちは、抗体クラス、治療標的、および変異タイプの多様性と、現代の治療用抗体の景観における構造的多様性にわたって一般化可能なベンチマークを作成するという目的とのバランスを見つけるよう努めました。」Gray Labの研究者たちは、AWSからのスポンサー研究助成金の支援を受け、データセットに含まれるシード抗体の選択を手伝いました。Chungyoun氏によると、彼らは選んだシードについて意図的であり、場合によっては既存の臨床段階の抗体またはFDA承認済み抗体を選択しました。チームはまた、人間体内を循環しているが治療薬として承認されていない抗体に近いものも選択しました。これらはgermline antibodies(胚性抗体)と呼ばれます。Chungyoun氏によると、germline抗体は人間体内に見られるものであり、重要な生体物理的特性を含んでいます。それらの特性の一部は治療用抗体と共有されていますが、両者の間には違いもあります。それらの違いを理解し、そのギャップをどのように橋渡しするかは、重要かつ未回答の質問です。従来の創薬は、動物または人間由来の抗体から始まります。それらはgermline特性を持っています。Chungyoun氏によると、それらのgermline抗体は occasionally(時々)、治療薬のように見えるように修正する必要があります。このプロセス — germline特性を持つ抗体から治療薬のように見えるものへの変換 — は、研究者がまだ探求しているものです。
変異戦略
データセットには、各シードに体系的な変異戦略を適用して生成された、各シード抗体のエンジニアリング済みバリアントも含まれています。「当初、最も困難なことは、本質的に、プロパティの幅広いスペクトルおよびこれらのシーケンスを変異させる方法をカバーする例のシーケンスを考案することでした」とGiancardo氏は説明します。「それは挑戦的です。なぜなら、それを行う前にa priori(事前に)行う必要があり、その後どのような結果が出るか分からないからです。」Johns Hopkins Engineeringと協力して、彼はチームとともに、タンパク質言語モデル(pLM)ガイド versus 非pLMガイドの変異選択や、アミノ酸置換 versus 挿入/欠失など、さまざまなアプローチを採用して体系的にバリアントをエンジニアリングしました。「タンパク質言語モデルは、本質的にタンパク質世界における大規模言語モデル(LLM)に相当します」とGiancardo氏は言いました。「タンパク質を見る方法はいくつかありますが、一般的な方法は、それらをアミノ酸の文字列として表現することです。これらは本質的に文字です。」これらのモデルは、アミノ酸鎖の一部の文字をマスクすることにより、それらのギャップをどのように埋めるかを予測するように訓練できます。また、異なる文字または複数の文字を挿入すること(すなわち変異)がどのような結果をもたらすかも予測できます。このアプローチは、最大99のエンジニアリング済みバリアント per seed(シードあたり)という多様な変異群をもたらしました。それらの変異の広さと深さは、Antibody Developability Benchmarkのもう一つの区別される特徴、すなわち意図的な異质性に貢献します。有利(またはdevelopable)および不利(またはpoorly developable)の例の両方を含めることは、既存のデータセットからそれを際立たせます。「この範囲は、バランス取れたラベル分布と、予測および回避しようとする失敗モードへの曝露を必要とする機械学習モデルのトレーニングおよび評価に不可欠です」とGiancardo氏は説明しました。彼はまた、それらの失敗はまだ生存可能性の範囲内にあることを明確にしました。「これらは明らかに間違っている例ではなく、むしろ勝算のある悪い例です。これらすべては依然として何らかのベースライン品質評価を満たしており、研究者がそれらを湿式ラボパートナーにテストするために送ることは合理的に行えます。」
ゼロショット学習
Gray氏とそのHopkins Engineeringチームは、AWSの counterparts(対応するチーム)と協力し、既存のオープンソース抗体設計および予測モデルを選択して実行しました。その後、彼らはBio Discoveryチームにその発見を共有し、Bio Discoveryチームは、それらのモデルをデータベースの情報にさらすことなく、ベンチマークデータセットに対してそれらが生成した結果を比較しました。「これは本質的にzero-shot inference(ゼロショット推論)です」とGiancardo氏は言いました。「この孤立したアプローチにより、両側ともAntibody Developability Benchmarkが生成した結果に対してより大きな自信を持つことができました。「私たちが別々に操作したという事実は、エラーを導入していないという自信を与えてくれました。外部の観点からも、あらゆる種類の日漏れ(data leakage)はありません。」チームはデータを比較し、それらの結果を使用してAntibody Developability Benchmarkをさらに微調整しました。この反復プロセスにより、湿式ラボパートナーと作業するという必要かつ高コストなステップの前に、モデルの生存可能性についてより大きな自信を持つことができるようになります。これにより、実験の観点からの全体的なタイムラインも短縮できます。「スクリーニングを行うのに十分な自信がある場合、湿式ラボに目を向け、新しいメトリクスを取得し、それらの結果に対してさらに訓練することができます。それははるかに、はるかに意味のあるものになります」とGiancardo氏は説明しました。
未来
AWSおよびHopkins Engineeringの両方の研究者は、Antibody Developability Benchmarkデータセットに基づいてモデルベンチマークをより大きな科学コミュニティと共有することの重要性を強調しました。ベンチマーク結果は現在Amazon Bio Discoveryの一部として利用可能であり、追加のベンチマークが時間とともに追加され、今年後半に論文としてリリースされます。提案されたタンパク質AIモデルの急増は研究者を興奮させますが、湿式ラボのコストと時間的コミットメントのため、研究者はこれまでそれらのモデルを頭対頭で比較できていませんでした。Chungyoun氏は、このデータセットの開始により、研究者は今どのモデル特性がパフォーマンスを向上させるかを学ぶ機会を持つようになったと指摘しました。これは、モデルが何を学習するか、およびそれらのモデルを改善してそれらのプロパティをよりよく予測する方法との接続を照らし出すことができます。データセットも静的ではありません:将来、より多くのモデルとプロパティが追加されます。「データベースは、以前認識されていなかった可能性のあるモデルやツールを浮上させる可能性があります。これは、あまり知られていない会場に発表された研究、または単にそれに見合う注目を浴びなかった作業です」とシニアサイエンスマネージャーのNina Cheng氏は言いました。「このデータベースは、そのような見過ごされた作業を明るみに出す鍵となる役割を果たすことができます。」
謝辞
Amazon Bio Discovery Science and product team: Luca Giancardo, Yue Zhao, Melih Yilmaz, Kemal Sonmez, Lan Guo, Gordon Trang, Edward Lee, Chuanyui Teh, Fangda Xu, Nina Cheng, Jiwon Kim.
原文を表示
In 1986 the US Food and Drug Administration issued its first approval for human use of a therapeutic antibody. Despite steady advances in methodology, genetic sequencing, and biomedical science, 40 years later the process of discovering and optimizing therapeutic antibodies often remains prohibitively expensive, in terms of both cost and time. Recent experiences with pandemic-style infectious-disease outbreaks lend an even greater urgency to the need to more quickly and efficiently identify and develop these antibodies. Artificial-intelligence- and machine-learning-guided approaches to antibody design, in the form of biological foundation models (BioFM), represent a significant opportunity to address these challenges. Models built using protein language models (pLMs) and structure-based deep-learning frameworks have significant potential to predict antibody developability properties — the characteristics that determine whether a molecule is manufacturable, stable, and safe as a therapeutic. The development of those tools could drastically shorten discovery timelines while also reducing experimental costs. That potential, however, has been hindered by the lack of a public dataset that would allow researchers to benchmark those tools, a crucial step in the development of trustworthy in-silico tools for drug discovery. While there are existing public antibody datasets, they are too frequently limited by a focus on a single antibody format or target. Others are composed of naturally occurring or clinically advanced antibodies, a bias that severely limits their utility for training or evaluating predictive models. “Trust in the predictions made by these models must be grounded in evaluations against experimental data that is sufficiently large and diverse,” explained Luca Giancardo, an applied scientist with Amazon Web Services (AWS) who works on the Amazon Bio Discovery team. “That data must be representative of the real sequence space encountered during antibody engineering and balanced in terms of developability outcomes.” Jeffrey Gray is a professor in the Chemical and Biomolecular Engineering Department at the Johns Hopkins Whiting School of Engineering, where he leads the Gray Lab, which focuses on the computational prediction and design of protein structures. He is also the original developer of RosettaDock, a tool for the prediction of the structure of protein complexes from their constituent proteins. Gray noted that while AI has made tremendous progress in the prediction and design of antibody properties, his own lab’s benchmarks have shown that current models do not yet reliably predict critical developability features, such as solubility and specificity, needed for efficient design of therapeutics. He cited the lack of diverse data in standardized conditions as a primary limitation for training models. That, coupled with the absence of a comprehensive, heterogenous, large-scale database, has acted as a significant drag on the potential of developing AI tools for antibody development. Antibody developability benchmark To that end, AWS, in collaboration with the Gray Lab and Johns Hopkins Engineering are announcing the launch of the Antibody Developability Benchmark, powered by the largest and most diverse antibody dataset in public literature. This is the first large-scale benchmark of antibody biophysical and biochemical properties designed to support the development and rigorous evaluation of in-silico antibody property predictors. The Antibody Developability Benchmark is 20 times as diverse — in terms of antibody formats, targets, and developability profiles — as benchmarks currently available in the scientific literature. While other datasets may contain more individual antibody designs, they typically explore a single target or antibody framework with limited property coverage. The Antibody Developability Benchmark is unique in its combination of scale and heterogeneity, encompassing 50 seed antibodies, four structural formats, and 42 antigens. It also includes both favorable and unfavorable developability outcomes. Gray lauded the opportunity to work with AWS experts, noting that the collaboration has enabled the creation of a dataset larger and more diverse than any of the publicly available datasets. He called the project an important next step toward fulfilling the promise of AI to improve human health. The Antibody Developability Benchmark includes the first heterogeneous antibody-property dataset explicitly designed to capture favorable and unfavorable developability profiles across multiple antigens and mutation strategies. Crucially, all data was affirmed via wet-lab experiments, providing ground truth validation that existing public benchmarks lack. “This dataset will allow researchers to confidently be able to answer ‘Which model is better suited for our purposes?’,” noted Giancardo, whose Bio Discovery team led the development of the dataset. “Today there are many computational models coming out that are mostly evaluated on either proprietary data or public datasets, which are not representative of antibody heterogeneity. That means deciding what is better or worse is very, very hard — if not impossible.” The unmatched diversity and deliberate heterogeneity of the Antibody Developability Benchmark will help make those determinations possible. Michael Chungyoun, a PhD researcher at JHU who worked on the project, observed that the benchmark covers a wide space of antibodies, particularly in terms of their properties. He noted that allowing researchers to check against a very diverse benchmark can save time and labor by helping them compare models and choose the best approach. The antibody dataset The dataset consists of 50 clinically and scientifically relevant seed antibodies spanning four structural formats — IgG, VHH, NearGermline-IgG, and scFv — targeting 42 distinct antigens. It measures expression, purity, thermostability, aggregation, polyreactivity, and hydrophobicity — six traits that are essential in the development of viable therapeutic antibodies. “The composition is a deliberate design choice,” Giancardo noted. “We strove to find a balance between heterogeneity of antibody classes, therapeutic targets, and mutation types, with the aim of creating benchmarks that would be generalizable across the structural diversity of the modern therapeutic-antibody landscape.” Researchers at the Gray Lab, assisted by a sponsored research grant from AWS, helped select the seed antibodies for inclusion in the dataset. They were intentional about the seeds they chose, Chungyoun noted, opting in some cases for existing clinical-stage antibodies or FDA-approved antibodies. The team also selected antibodies more akin to those that circulate in the human body but aren't approved therapeutics. Those are called germline antibodies. Chungyoun explained that germline antibodies are those found in the human body and they contain important biophysical characteristics. While some of those characteristics are shared with therapeutic antibodies, there are also differences between the two. Understanding those differences, and how to bridge that gap, is a vital and unanswered question. Traditional drug discovery begins with antibodies that come from animals or a humans — those have germline properties. Chungyoun explained that those germline antibodies occasionally need to be modified to look more like a therapeutic. That process — changing an antibody from one with germline characteristics to something that looks more like a therapeutic — is one researchers are still exploring. Mutation strategy The dataset also includes engineered variants of each seed antibody, generated by applying systematic mutation strategies to each seed. “Initially, the hardest thing was essentially coming up with example sequences that would cover the broad spectrum of properties and the ways of mutating these sequences,” Giancardo explained. “It's challenging because you have to do it a priori until you do it and then you don't know what will come out.” Working with Johns Hopkins Engineering, he and his team systematically engineered variants employing a variety of approaches, including protein language model (pLM)-guided versus non-pLM-guided mutation selection and amino acid substitutions versus insertions/deletions. “Protein language models are essentially the equivalent of large language model for the protein world,” Giancardo said. “There are multiple ways of looking at proteins, a common way is expressing them as a string of amino acids, which are essentially letters.” By masking some of the letters in the amino acid chains, these models can be trained to predict how to fill in those gaps. They can also predict what changes inserting a different letter or letters, e.g. mutation, will result in. That approach resulted in a wide variety of mutations — up to 99 engineered variants per seed. The breadth and depth of those mutations contribute to another distinguishing feature of the Antibody Developability Benchmark: its deliberate heterogeneity. The inclusion of both favorable, or developable, and unfavorable, or poorly developable examples, sets it apart from existing datasets. “This range is essential for training and evaluating machine learning models, which require balanced label distributions and exposure to the failure modes they are intended to predict and avoid,” Giancardo explained. He also clarified that those failures still fall within a range of viability. “These are not examples that are obviously wrong, but rather bad examples that have a fighting chance. These all still meet some baseline quality assessment, meaning researchers could reasonably send them to a wet lab partner to test.” Zero-shot learning Gray and his team at Hopkins Engineering also collaborated with their AWS counterparts by selecting and running existing open-source antibody design and prediction models on their own. They then shared their findings with the Bio Discovery team, who compared the results those models generated against the benchmarking dataset without exposing those models to the information in that database. “This is essentially zero-shot inference,” Giancardo said. That siloed approach allowed both sides to have greater confidence in the results the Antibody Developability Benchmark generated. “The fact that we operated separately gave us confidence that we were not introducing errors, there is no data leakage of any sort, even from an external perspective.” The teams compared their data and used those results to further fine-tune the Antibody Developability Benchmark. That iterative process means researchers who utilize the benchmark can have greater confidence about the viability of their models before the necessary, and costly, step of working with a wet lab partner. That can also shorten the overall timeline in terms of experimentation. “When you are confident enough to do a screen, then you can turn to the web lab, get new metrics, and further train on those results, which will be much, much more, much more meaningful,” Giancardo explained. The future Researchers at both AWS and Hopkins Engineering emphasized the importance of sharing model benchmarks based on the Antibody Developability Benchmark Dataset with the larger scientific community.The benchmark results are now available as part of Amazon Bio Discovery, with additional benchmarks added over time and released in a paper coming later this year. The sharp uptick in proposed protein AI models has researchers excited, but the expense and time commitment of wet labs has meant researchers have thus far been unable to compare those models head-to-head, Chungyoun observed. He noted the launch of this dataset means those researchers now have an opportunity to learn which model properties improve performance. That can serve to illuminate the connection between what models learn and how those models can be improved to better predict those properties. The dataset won’t remain static either: More models and properties will be added in the future. "The database has the potential to surface models and tools that may have previously gone unrecognized — research published in lesser-known venues or work that simply didn't receive the attention it deserved," said Nina Cheng, senior science manager. "This database can play a key role in bringing that kind of overlooked work to light." Acknowledgements Amazon Bio Discovery Science and product team: Luca Giancardo, Yue Zhao, Melih Yilmaz, Kemal Sonmez, Lan Guo, Gordon Trang, Edward Lee, Chuanyui Teh, Fangda Xu, Nina Cheng, Jiwon Kim.
関連記事
AWSがS3 Filesを導入、S3バケットへのファイルシステムアクセスを実現
AWSはS3 Filesを発表し、ユーザーがAmazon S3バケットをマウントして標準ファイルシステムインターフェースでデータにアクセスできるようにした。アプリケーションは標準ファイル操作で読み書きでき、システムが自動的にS3リクエストに変換するため、コンピュートサービスがS3に保存されたデータを直接扱える。
AWSが自動インシデント調査のためのDevOpsエージェントを一般提供開始
AWSは、開発者と運用者がAWS環境での問題のトラブルシューティング、デプロイメントの分析、運用タスクの自動化を支援する生成AI搭載アシスタント「DevOps Agent」の一般提供を開始した。
Amazon Bedrockの詳細なコスト帰属機能の導入
AWSがAmazon Bedrockの推論コストをIAMプリンシパルごとに自動的に帰属する機能を発表した。これにより、コストの内訳把握、コスト最適化、財務計画が容易になる。