構造認識pLMを用いた化合物-タンパク質相互作用予測手法の開発
Preferred Networks は、タンパク質の立体構造情報と化合物の物性情報を統合した新モデル「GenSPARC」を開発し、未知ターゲットへの汎化性能を大幅に向上させることに成功しました。
キーポイント
Structure-Aware pLM の活用によるタンパク質表現の高度化
既存の配列ベースモデルの限界を克服するため、AlphaFold2 で予測した構造から Foldseek による 3Di アルファベットを付与し、「配列+構造」を同時に学習する Structure-Aware pLM(SaProt)を採用しました。
多角的な化合物表現とマルチモーダル注意機構
分子グラフ(GCN)と RDKit 由来の物性記述子を組み合わせ、タンパク質残基と化合物原子間の相互作用を Cross-Attention で詳細にモデリングする新アーキテクチャ「GenSPARC」を構築しました。
未知ターゲット・化合物への高い汎化性能
学習データに含まれない新規ターゲットや化合物、さらには実験構造が存在しない状況(予測構造のみ利用)においても、既存手法を上回る安定した予測精度を達成しました。
標準ベンチマークでの実証と創薬への応用
Karimi, Davis, KIBA 等の標準ベンチマークおよび DUD-E を用いた仮想スクリーニング設定で評価し、配列ベースや構造ベースの既存手法を凌駕する性能を示すことで、創薬プロセスの実務活用可能性を確認しました。
構造認識と物性の統合による高精度予測
SaProtを用いたタンパク質の立体構造認識と、GCN+SPMMによる化合物のトポロジー・物性情報の統合により、既存手法を凌駕するコンタクトマップおよび結合親和性予測性能を実現した。
Structure-hard設定における汎化性能の高さ
類似度に基づく厳密なデータ分割(Sequence-hard/Structure-hard)においても、既知の化合物やタンパク質に対する未見データにおいて高いPRC-AUCとPCCを達成し、優れた汎化能力を示した。
粗視化構造表現による予測構造への頑健性
3Diアルファベットという粗視化された構造表現を採用しているため、実験構造(PDB)とAlphaFold2予測構造の性能差が小さく、原子座標の誤差に対して高い頑健性を有することが確認された。
影響分析・編集コメントを表示
影響分析
この研究は、AI を用いた創薬において「配列のみ」から「構造と物性を統合した多角的アプローチ」へパラダイムシフトを促す重要な一歩です。特に AlphaFold2 の予測構造を活用することで実験コストをかけずに高精度なスクリーニングが可能になる点は、新薬開発のスピードと効率に直結する画期的な進展であり、業界全体の標準手法を変える可能性を秘めています。
編集コメント
PFN の技術力が、単なる配列解析から構造情報を深く理解する段階へと進化していることを示す好例です。特に「未知のターゲット」への対応力は、実務現場における最も痛烈な課題解決に直結するため、注目度が高いニュースと言えます。
PFN リサーチャーの武本です。この投稿は2025年12月19日にCommunications Chemistry誌に出版された論文「Generalizable Compound–Protein Interaction Prediction with a Model Incorporating Protein Structure–Aware and Compound Property–Aware Language Model Representations」についての解説記事です。論文はオープンアクセスで以下のURLから閲覧可能です。 https://www.nature.com/articles/s42004-025-01844-0
概要
創薬やケミカルバイオロジーの分野において、標的タンパク質と化合物の結合親和性を予測するCPI (Compound–Protein Interaction) 予測は、重要な役割を担います。しかし、既存の機械学習ベース手法の多くは、タンパク質配列やSMILESのような1次元情報に依存しており、タンパク質の立体構造や化合物の物性情報といった多角的な情報を十分に活用できていませんでした。その結果、学習データに含まれない新規ターゲットや新規化合物に対する汎化性能の低下という課題が指摘されていました。
これらの課題に対し、我々はCPI予測モデルGenSPARC (Generalized Structure- and Property-Aware Representations for CPI prediction) を開発しました。GenSPARCは、タンパク質と言語モデル、配列、構造、物性といった複数モダリティを統合することで、未知のターゲット・化合物に対しても高い予測性能を達成することを目指したモデルです。GenSPARCの主な技術的特徴は以下の通りです。
構造認識タンパク質言語モデル SaProt の活用: AlphaFold2で予測したタンパク質構造からFoldseekによる3Di構造アルファベットを付与し、「配列+構造」を同時に扱うStructure-Awareな表現を利用
GCNと化合物言語モデルSPMMによる化合物表現: 分子グラフに対するグラフ畳み込みニューラルネットワーク (Graph Convolutional Neural Network; GCN) と、RDKitベースの物性記述子を入力とするproperty encoderを組み合わせ、構造と物性の両面から化合物の表現を取得
マルチモーダル注意機構 (MAN) による残基・原子間の相互作用モデリング: タンパク質残基と化合物原子の間でCross-Attentionを実施し、結合親和性予測だけでなく、残基–原子レベルのコンタクトマップ予測も同時に行う
Karimi, Davis, KIBA, Metzといった標準的なCPI予測ベンチマークに加え、DUD-Eを用いた仮想スクリーニング設定で評価した結果、GenSPARCは既存の配列ベース・構造ベースの手法を上回る性能を示しました。特に、学習データに存在しないタンパク質・化合物(Unseen-Both)の組み合わせや、実験構造がない状況(AlphaFold2の予測構造のみ使用可能)においても、安定した高い予測性能を維持できることが最大の特徴です。
本稿では、GenSPARCのモデル構成、学習方法、ベンチマーク結果、および創薬実務における活用方向性について、技術的な観点から解説します。
背景
既存の CPI 予測の手法と課題
広く用いられている CPI 予測手法は、大きく分けて「原子レベルの 3 次元構造を直接扱うアプローチ」と「配列・グラフ情報に基づく深層学習アプローチ」に分類されます。
「原子レベルの 3 次元構造を直接扱うアプローチ」としてはドッキングシミュレーションや MD シミュレーション、MD を利用した自由エネルギー計算法が挙げられます。これらの手法は物理的に解釈が容易であり、単一のターゲットに対して高精度な評価が可能であるという利点があります。しかしながら、以下のような課題も知られています。
信頼できるタンパク質構造(通常は実験構造)を事前に準備する必要がある
多数の候補化合物に対して適用するには計算コストが高い
AlphaFold などの予測構造をそのまま用いると、ポケット形状や側鎖の原子配置のわずかな誤差により、性能が低下しやすい
一方、深層学習技術の発展に伴い、タンパク質の 3 次元原子配置を直接用いない「配列・グラフ情報に基づく深層学習アプローチ」に基づくモデル (DeepAffinity[1], GraphDTA[2], TransformerCPI[3] など) が複数提案されています。Fig. 1 にそれらに共通する構造の概念図を示しています。これらのモデルは、実験構造が存在しなくても CPI 予測が可能であるという利点がありますが、以下の問題点が指摘されています。
学習に使えるデータが限定されている
タンパク質の立体構造や化合物の物性といった情報を十分に活用できていない
訓練に用いたデータから大きく乖離すると精度が低下するため、新規のターゲット・化合物に対する汎化性が低い

Fig. 1 深層学習を利用した CPI 予測モデルの概念図
pLM と Structure-Aware pLM の登場
自然言語処理の成功を受け、アミノ酸配列を単語列とみなすタンパク質言語モデル (pLM) が開発されてきました (ESM[4] ファミリーなど)。しかし最近の研究では、pLM においてスケーリング則の破綻、すなわちパラメータ数を増やしても性能が頭打ちになる現象が観測されています [5]。そこで、配列だけでなく構造情報も同時に学習させる pLM、つまり Structure-Aware pLM が提案されました。例えば SaProt[6] では、AlphaFold2 で予測した構造から Foldseek[7] の 3Di 構造アルファベットを割り当て、「アミノ酸文字+構造文字」からなるシーケンスとして Transformer に学習させています。この文字列としての構造表現は、原子座標の細かい揺れに頑健であり、従来の pLM の限界を超える有望な方向性として注目されています。
方法
GenSPARC のアイデア:構造認識 pLM × 化合物言語モデル
GenSPARC は、この Structure-Aware pLM の利点と、化合物の言語モデルを組み合わせたマルチモーダルな CPI 予測モデルです。全体像を Fig. 2 に示します。

Fig. 2 GenSPARC モデルアーキテクチャの全体像
- タンパク質エンコーダ:SaProt による構造認識ベクトル
各残基の埋め込みベクトルに配列と立体構造の両方を反映した表現を獲得します。
タンパク質配列から AlphaFold2 で構造を予測し、Foldseek で各残基に 3Di 構造アルファベットを割り当てます。「アミノ酸文字+構造文字」からなる structure sequence を SaProt に入力し、SaProt の出力ベクトルを線形変換して GenSPARC 用のタンパク質埋め込みとします。
- 化合物エンコーダ:GCN + SPMM による構造と物性の統合
化合物については、トポロジカルな構造と物理化学的な物性値の 2 種類の情報を使用します。
分子グラフ(原子と結合)については、RDKit で SMILES からグラフを作成し、原子種、芳香族性、荷電状態などを特徴量としたノードを GCN (3 層) で処理します。また、53 個の分子記述子については、化合物言語モデル SPMM[8] の property encoder を利用し、aromaticity, Gasteiger charge, ring 数など RDKit ベースの物性を入力して 768 次元ベクトルを出力します。
これら 2 つの出力をマルチヘッドアテンションを用いた Molecular Fusion モジュールで統合し、「構造と物性の双方の情報を取り込んだ化合物ベクトル」を構築します。
- マルチモーダル注意機構 (MAN)
タンパク質埋め込みと化合物埋め込みは、Multimodal Attention Network (MAN) (Fig. 3) で統合されます。
Self-Attention ではタンパク質内および化合物内の文脈をとらえ、Cross-Attention では残基クエリが化合物キーを、原子クエリがタンパク質キーを参照し、残基と原子が互いを参照しながら特徴を更新(相互作用モデリング)します。更新されたベクトルを平均プーリングした後、MLP で結合親和性 (回帰タスク) を予測します。さらに、残基ベクトルと原子ベクトルの内積からコンタクトマップ (残基 - 原子間の相互作用) も同時に予測します。

Fig.3 Multimodal Attention Network (MAN) の内部構造
結果
Karimi データセットでのコンタクト & 親和性予測
CPI の代表的ベンチマークである Karimi データセット [9] に対し、実用を見据えた類似度に基づく厳密なデータ分割 (Sequence-hard/Structure-hard) を再定義し評価を行いました。化合物は Tanimoto 類似度 0.3 以下、タンパク質は Foldseek による構造配列一致度 0.5 以下を Unseen と定義する Structure-hard 設定における評価結果の抜粋を表 1(コンタクトマップ予測)および表 2(結合親和性予測)に示します。なお表中の GenSPARC-MT はコンタクト予測と結合親和性回帰を同時に予測するマルチタスク (MT) 学習を行ったものです。
コンタクトマップ予測(表1):Structure-hard設定のUnseen-Bothなど、汎化性能が厳しく問われる設定においても、GenSPARCは既存手法(Cross-Interaction[10], PSC-CPI[11]など)を大きく上回るPRC-AUC / ROC-AUCを達成。
結合親和性予測(表2):Unseen-Bothを含む全ての分割で、既存手法に比べて良好な性能を示した
このほか、キナーゼ中心のベンチマークデータセット Davis/KIBA/Metzの各データセットでも、Unseen both splitで既存の手法に比べて良好な性能を示していますが、本ブログ記事では割愛します。
Table1: structure-hard設定でのGenSPARCのContact予測ベンチマーク結果抜粋

Table2: structure-hard設定でのGenSPARCの結合親和性予測ベンチマーク結果抜粋 (RMSE = root mean square error, PCCs = Pearson's correlation coefficient)

バーチャルスクリーニング(DUD-E)での評価
構造ベース仮想スクリーニングの代表的ベンチマークDUD-Eでも評価を実施しました。AutodockVina、DrugCLIP[12]、GenSPARCについては推論時の入力構造を、実験構造 (PDB) とAlphaFold2予測構造 (AF2) の2条件で比較しています。指標としてはEnrichment Factor (EF) とBoltzmann-enhanced discrimination of receiver operating characteristic (BEDROC) 指標を利用しています。
PDB 構造を入力した場合:DrugCLIP にはわずかに及ばないものの、EF/BEDROC ともに競合レベル
AlphaFold2 の予測構造を入力した場合:docking (Vina-AF) やDrugCLIP-AFより高いEF/BEDROCを達成
特に、PDB構造を入力した場合とAF2予測構造を入力した場合の性能ギャップが比較的小さいことが確認されました。これは、GenSPARCが3Diアルファベットという粗視化された構造表現を用いているため、原子座標の誤差に対して頑健であることを示唆しています。
Table 3: DUD-Eを用いたバーチャルスクリーニングのベンチマーク結果抜粋 (*付きの条件はDrugCLIP[12]の論文より数値を引用)

構造と物性を取り込む効果検証 (Ablation study)
GenSPARCの各要素の重要性を確認するため、構造認識SaProt、GCN、物性エンコーダのそれぞれを取り除いたAblation Studyを実施しました (Fig. 4)。
構造情報を抜く(=ESM-2に置き換え):特にsequence-hard / structure-hard設定のUnseen-BothでコンタクトPRC-AUCが大きく悪化。
GCNを抜く(=SPMMだけを用いる):ROC-AUCの減少幅は限定的だが、PRC-AUCが大きく低下。これは偽陽性が増加したことを示唆。
物性エンコーダを抜く(=GCNのみを用いる):減少幅は小さいが、難しいセッティングでやや悪化。
この結果は、(1) タンパク質の配列+構造、(2) 化合物のグラフ構造と物性値、(3) それらをCross-Attentionで密につなぐという全要素の統合が、高い汎化性能の発現に不可欠であることを示しています。
imageFig. 4 GenSPARC各要素のAblation studyの結果
応用例や課題と今後の展望
GenSPARCは、実務的な創薬パイプラインにおいて以下の状況で有用性を発揮します。
AlphaFold予測構造のみのターゲットに対する仮想スクリーニング:既存ドッキング手法と比較して予測構造に対する性能低下が小さく、安定したスコアリングが可能
大規模ライブラリの事前フィルタリング:GPUによる高速なバッチ計算を活用し、数百万〜数十億スケールのライブラリから有望な候補を絞り込み、ドッキングやMDシミュレーションの計算資源を最適化
構造ベース設計との統合:GenSPARCが算出したコンタクトマップを「有効性の高い領域」としてガイド情報に利用し、ポケット周辺のアミノ酸変異やリガンド設計にフィードバック
一方で、論文内ではいくつかの課題も議論しています。
化合物表現の限界:SPMMの物性値特徴量はRDKitベースの記述子が中心であり、3次元構造の微細な差異を十分に捉えきれていません。3次元情報をより多く取り入れたい一方で、座標を直接利用すると予測構造のノイズに対して過学習しやすいというトレードオフが存在します。
コンタクトの予測漏れ:一部の相互作用については、既存手法より改善は見られるものの、依然として正確な予測ができていません。今後は、GenSPARCの予測コンタクトをAlphaFold3などの複合体予測モデルへの制約として適用し、構造予測とスコアリングを反復的に行う統合フレームワークを検討します。
天然変性タンパク質(IDP)への対応:現在のデータセットにはIDPがほとんど含まれていないため、これらの標的への適用性の検証と拡張が今後の重要な研究課題となります。
おわりに
AlphaFold2以降、「構造をどう使うか?」は創薬AIにとって中心的なテーマとなっています。GenSPARCは、構造認識タンパク質言語モデルSaProtと、化合物言語モデルSPMM+GCNを組み合わせ、配列・構造・物性を統合した次世代のCPI予測モデルです。複数のベンチマークで高い汎化性能を示し、特に「未知の相互作用ペア」や「AlphaFold予測構造を用いた仮想スクリーニング」でその強みを発揮します。今後は、化合物側の3D表現の改善や複合体構造予測モデルとの統合、IDPへの拡張などを通じて、「構造情報をフル活用しつつ、予測構造のノイズにも頑健」な次世代CPI予測へと発展させていくことが期待されます。
なお、本研究は2024年度のPFN夏季インターンシッププログラム期間中に行われた成果です。今回の論文の主著者のYiming Zhangさんからも、2024年PFN夏季インターンについて下記のコメントをいただきました。
PFNの強力な計算資源と、メンターの富田さん、武本さんの手厚いサポートのおかげで、短期間で研究を形にすることができました。自由な雰囲気の中で、社員の方々とランチや議論を楽しめたことも良い思い出です。このインターンで得た経験を、今後の研究活動に活かしていきたいと思います。
参考文献
- Karimi M, Wu D, Wang Z, Shen Y. DeepAffinity: interpretable deep learning of compound-protein affinity through unified recurrent and convolutional neural networks. Bioinformatics. 2019;35: 3329–3338.
- Nguyen T, Le H, Quinn TP, Nguyen T, Le TD, Venkatesh S. GraphDTA: predicting drug-target binding affinity with graph neural networks. Bioinformatics. 2021;37: 1140–1147.
- Chen L, Tan X, Wang D, Zhong F, Liu X, Yang T, et al. TransformerCPI: improving compound-protein interaction prediction by sequence-based deep learning with self-attention mechanism and label reversal experiments. Bioinformatics. 2020;36: 4406–4414.
- Lin Z, Akin H, Rao R, Hie B, Zhu Z, Lu W, et al. Evolutionary-scale prediction of atomic-level protein structure with a language model. Science. 2023;379: 1123–1130.
- Notin P. Have We Hit the Scaling Wall for Protein Language Models? In: Pascal Notin [Internet]. 8 May 2025 [cited 9 Jun 2025]. Available: https://pascalnotin.substack.com/p/have-we-hit-the-scaling-wall-for
- Su J, Han C, Zhou Y, Shan J, Zhou X, Yuan F. SaProt: Protein language modeling with structure-aware vocabulary. bioRxiv. 2023. p. 2023.10.01.560349. doi:10.1101/2023.10.01.560349
- van Kempen M, Kim SS, Tumescheit C, Mirdita M, Lee J, Gilchrist CLM, 他。Foldseek を用いた高速かつ高精度なタンパク質構造検索。Nat Biotechnol. 2024;42: 243–246.
- Chang J, Ye JC。単一の分子基盤モデルを通じた構造と特性の双方向生成。Nat Commun. 2024;15: 2323.
- Karimi M, Wu D, Wang Z, Shen Y。化合物-タンパク質親和性と接触を予測するための説明可能な深層関係ネットワーク。J Chem Inf Model. 2021;61: 46–66.
- You Y, Shen Y。化合物-タンパク質親和性と接触予測のためのクロスモダリティおよび自己教師ありタンパク質埋め込み。Bioinformatics. 2022;38: ii68–ii74.
- Wu L, Huang Y, Tan C, Gao Z, Hu B, Lin H, 他。PSC-CPI:効率的かつ汎用性の高い化合物-タンパク質相互作用予測のためのマルチスケールタンパク質配列 - 構造コントラスト。arXiv [q-bio.BM]. 2024. 利用可能: http://arxiv.org/abs/2402.08198
- Gao B, Qiang B, Tan H, Ren M, Jia Y, Lu M, 他。DrugCLIP:バーチャルスクリーニングのための対照的タンパク質 - 分子表現学習。arXiv [cs.LG]. 2023. 利用可能: http://arxiv.org/abs/2310.06367
「Structure-Aware pLM を用いた化合物-タンパク質相互作用予測手法の開発」という投稿は、最初に Preferred Networks Tech Blog に掲載されました。
原文を表示
PFNリサーチャーの武本です。この投稿は2025年12月19日にCommunications Chemistry誌に出版された論文「Generalizable Compound–Protein Interaction Prediction with a Model Incorporating Protein Structure–Aware and Compound Property–Aware Language Model Representations」についての解説記事です。論文はオープンアクセスで以下のURLから閲覧可能です。 https://www.nature.com/articles/s42004-025-01844-0
概要
創薬やケミカルバイオロジーの分野において、標的タンパク質と化合物の結合親和性を予測するCPI (Compound–Protein Interaction) 予測は、重要な役割を担います。しかし、既存の機械学習ベース手法の多くは、タンパク質配列やSMILESのような1次元情報に依存しており、タンパク質の立体構造や化合物の物性情報といった多角的な情報を十分に活用できていませんでした。その結果、学習データに含まれない新規ターゲットや新規化合物に対する汎化性能の低下という課題が指摘されていました。
これらの課題に対し、我々はCPI予測モデルGenSPARC (Generalized Structure- and Property-Aware Representations for CPI prediction) を開発しました。GenSPARCは、タンパク質と言語モデル、配列、構造、物性といった複数モダリティを統合することで、未知のターゲット・化合物に対しても高い予測性能を達成することを目指したモデルです。GenSPARCの主な技術的特徴は以下の通りです。
構造認識タンパク質言語モデル SaProt の活用: AlphaFold2で予測したタンパク質構造からFoldseekによる3Di構造アルファベットを付与し、「配列+構造」を同時に扱うStructure-Awareな表現を利用
GCNと化合物言語モデルSPMMによる化合物表現: 分子グラフに対するグラフ畳み込みニューラルネットワーク (Graph Convolutional Neural Network; GCN) と、RDKitベースの物性記述子を入力とするproperty encoderを組み合わせ、構造と物性の両面から化合物の表現を取得
マルチモーダル注意機構 (MAN) による残基・原子間の相互作用モデリング: タンパク質残基と化合物原子の間でCross-Attentionを実施し、結合親和性予測だけでなく、残基–原子レベルのコンタクトマップ予測も同時に行う
Karimi, Davis, KIBA, Metzといった標準的なCPI予測ベンチマークに加え、DUD-Eを用いた仮想スクリーニング設定で評価した結果、GenSPARCは既存の配列ベース・構造ベースの手法を上回る性能を示しました。特に、学習データに存在しないタンパク質・化合物(Unseen-Both)の組み合わせや、実験構造がない状況(AlphaFold2の予測構造のみ使用可能)においても、安定した高い予測性能を維持できることが最大の特徴です。
本稿では、GenSPARCのモデル構成、学習方法、ベンチマーク結果、および創薬実務における活用方向性について、技術的な観点から解説します。
背景
既存の CPI 予測の手法と課題
広く用いられているCPI予測手法は、大きく分けて「原子レベルの3次元構造を直接扱うアプローチ」と「配列・グラフ情報に基づく深層学習アプローチ」に分類されます。
「原子レベルの3次元構造を直接扱うアプローチ」としてはドッキングシミュレーションやMDシミュレーション、MDを利用した自由エネルギー計算法が挙げられます。これらの手法は物理的に解釈が容易であり、単一のターゲットに対して高精度な評価が可能であるという利点があります。しかしながら、以下のような課題も知られています。
信頼できるタンパク質構造(通常は実験構造)を事前に準備する必要がある
多数の候補化合物に対して適用するには計算コストが高い
AlphaFold などの予測構造をそのまま用いると、ポケット形状や側鎖の原子配置のわずかな誤差により、性能が低下しやすい
一方、深層学習技術の発展に伴い、タンパク質の3次元原子配置を直接用いない「配列・グラフ情報に基づく深層学習アプローチ」に基づくモデル (DeepAffinity[1], GraphDTA[2], TransformerCPI[3]など) が複数提案されています。Fig. 1にそれらに共通する構造の概念図を示しています。これらのモデルは、実験構造が存在しなくても CPI予測が可能であるという利点がありますが、以下の問題点が指摘されています。
学習に使えるデータが限定されている
タンパク質の立体構造や化合物の物性といった情報を十分に活用できていない
訓練に用いたデータから大きく乖離すると精度が低下するため、新規のターゲット・化合物に対する汎化性が低い

Fig. 1 深層学習を利用したCPI予測モデルの概念図
pLM と Structure-Aware pLM の登場
自然言語処理の成功を受け、アミノ酸配列を単語列とみなすタンパク質言語モデル (pLM) が開発されてきました (ESM[4] ファミリーなど)。しかし最近の研究では、pLMにおいてスケーリング則の破綻、すなわちパラメータ数を増やしても性能が頭打ちになる現象が観測されています[5]。そこで、配列だけでなく 構造情報も同時に学習させるpLM、 つまりStructure-Aware pLM が提案されました。例えば SaProt[6] では、AlphaFold2 で予測した構造から Foldseek[7]の3Di 構造アルファベットを割り当て、「アミノ酸文字+構造文字」からなるシーケンスとしてTransformerに学習させています。この文字列としての構造表現は、原子座標の細かい揺れに頑健であり、従来のpLMの限界を超える有望な方向性として注目されています。
方法
GenSPARC のアイデア:構造認識 pLM × 化合物言語モデル
GenSPARCは、このStructure-Aware pLMの利点と、化合物の言語モデルを組み合わせたマルチモーダルなCPI予測モデルです。全体像をFig. 2に示します。

Fig. 2 GenSPARC モデルアーキテクチャの全体像
- タンパク質エンコーダ:SaProt による構造認識ベクトル
各残基の埋め込みベクトルに配列と立体構造の両方を反映した表現を獲得します
タンパク質配列から AlphaFold2 で構造を予測
Foldseekで各残基に 3Di 構造アルファベットを割り当てる
「アミノ酸文字+構造文字」からなるstructure sequenceをSaProt に入力
SaProt の出力ベクトルを線形変換し、GenSPARC用のタンパク質埋め込みにする
- 化合物エンコーダ:GCN + SPMM による構造と物性の統合
化合物については、トポロジカルな構造と物理化学的な物性値の2種類の情報を使用します。
分子グラフ (原子と結合)
RDKit で SMILES からグラフを作成
原子種、芳香族性、荷電状態などを特徴量にしたノードを GCN (3層) で処理
53 個の分子記述子
化合物言語モデルSPMM[8]のproperty encoderを利用
aromaticity, Gasteiger charge, ring 数など RDKit ベースの物性を入力し、768 次元ベクトルを出力
これら2つの出力をマルチヘッドアテンションを用いたMolecular Fusionモジュールで統合し、「構造と物性の双方の情報を取り込んだ化合物ベクトル」を構築します。
- マルチモーダル注意機構 (MAN)
タンパク質埋め込みと化合物埋め込みは、Multimodal Attention Network (MAN) (Fig. 3)で統合されます。
Self-Attention:タンパク質内/化合物内の文脈をとらえる
Cross-Attention:残基クエリが化合物キーを、原子クエリがタンパク質キーを参照し、残基と原子が互いを参照しながら特徴を更新(相互作用モデリング)
更新されたベクトルを平均プーリングした後、MLPで結合親和性 (回帰タスク) を予測します。さらに、残基ベクトルと原子ベクトルの内積からコンタクトマップ (残基-原子間の相互作用) も同時に予測します。

Fig.3 Multimodal Attention Network (MAN) の内部構造
結果
Karimiデータセットでのコンタクト & 親和性予測
CPIの代表的ベンチマークであるKarimiデータセット[9]に対し、実用を見据えた類似度に基づく厳密なデータ分割 (Sequence-hard/Structure-hard) を再定義し評価を行いました。化合物はTanimoto類似度0.3以下、タンパク質はFoldseekによる構造配列一致度0.5以下をUnseenと定義するStructure-hard設定における評価結果の抜粋を表1(コンタクトマップ予測)および表2(結合親和性予測)に示します。なお表中のGenSPARC-MTはコンタクト予測と結合親和性回帰を同時に予測するマルチタスク (MT) 学習を行ったものです。
コンタクトマップ予測 (表1):Structure-hard設定のUnseen-Bothなど、汎化性能が厳しく問われる設定においても、GenSPARCは既存手法(Cross-Interaction[10], PSC-CPI[11]など)を大きく上回るPRC-AUC / ROC-AUCを達成。
結合親和性予測 (表2):Unseen-Bothを含む全ての分割で、既存手法に比べて良好な性能を示した
このほか、キナーゼ中心のベンチマークデータセット Davis/KIBA/Metzの各データセットでも、Unseen both splitで既存の手法に比べて良好な性能を示していますが、本ブログ記事では割愛します。
Table1: structure-hard設定でのGenSPARCのContact予測ベンチマーク結果抜粋

Table2: structure-hard設定でのGenSPARCの結合親和性予測ベンチマーク結果抜粋 (RMSE = root mean square error, PCCs = Pearson’s correlation coefficient)

バーチャルスクリーニング (DUD-E) での評価
構造ベース仮想スクリーニングの代表的ベンチマークDUD-Eでも評価を実施しました。AutodockVina、DrugCLIP[12]、GenSPARCについては推論時の入力構造を、実験構造 (PDB) とAlphaFold2予測構造 (AF2) の2条件で比較しています。指標としてはEnrichment Factor (EF) とBoltzmann-enhanced discrimination of receiver operating characteristic (BEDROC) 指標を利用しています。
PDB 構造を入力した場合: DrugCLIP にはわずかに及ばないものの、EF/BEDROC ともに競合レベル
AlphaFold2 の予測構造を入力した場合: docking (Vina-AF) やDrugCLIP-AFより高いEF/BEDROCを達成
特に、PDB構造を入力した場合とAF2予測構造を入力した場合の性能ギャップが比較的小さいことが確認されました。これは、GenSPARCが3Diアルファベットという粗視化された構造表現を用いているため、原子座標の誤差に対して頑健であることを示唆しています。
Table 3: DUD-Eを用いたバーチャルスクリーニングのベンチマーク結果抜粋 (*付きの条件はDrugCLIP[12]の論文より数値を引用)

構造と物性を取り込む効果検証 (Ablation study)
GenSPARCの各要素の重要性を確認するため、構造認識SaProt、GCN、物性エンコーダのそれぞれを取り除いたAblation Studyを実施しました (Fig. 4)。
構造情報を抜く(=ESM-2に置き換え): 特にsequence-hard / structure-hard設定のUnseen-BothでコンタクトPRC-AUCが大きく悪化。
GCNを抜く(=SPMMだけを用いる): ROC-AUCの減少幅は限定的だが、PRC-AUCが大きく低下。これは偽陽性が増加したことを示唆。
物性エンコーダを抜く(=GCNのみを用いる): 減少幅は小さいが、難しいセッティングでやや悪化。
この結果は、(1) タンパク質の配列+構造、(2) 化合物のグラフ構造と物性値、(3) それらをCross-Attentionで密につなぐという全要素の統合が、高い汎化性能の発現に不可欠であることを示しています。
imageFig. 4 GenSPARC各要素のAblation studyの結果
応用例や課題と今後の展望
GenSPARCは、実務的な創薬パイプラインにおいて以下の状況で有用性を発揮します。
AlphaFold予測構造のみのターゲットに対する仮想スクリーニング:既存ドッキング手法と比較して予測構造に対する性能低下が小さく、安定したスコアリングが可能
大規模ライブラリの事前フィルタリング:GPUによる高速なバッチ計算を活用し、数百万〜数十億スケールのライブラリから有望な候補を絞り込み、ドッキングやMDシミュレーションの計算資源を最適化
構造ベース設計との統合:GenSPARCが算出したコンタクトマップを「有効性の高い領域」としてガイド情報に利用し、ポケット周辺のアミノ酸変異やリガンド設計にフィードバック
一方で、論文内ではいくつかの課題も議論しています。
化合物表現の限界:SPMMの物性値特徴量はRDKitベースの記述子が中心であり、3次元構造の微細な差異を十分に捉えきれていません。3次元情報をより多く取り入れたい一方で、座標を直接利用すると予測構造のノイズに対して過学習しやすいというトレードオフが存在します。
コンタクトの予測漏れ:一部の相互作用については、既存手法より改善は見られるものの、依然として正確な予測ができていません。今後は、GenSPARCの予測コンタクトをAlphaFold3などの複合体予測モデルへの制約として適用し、構造予測とスコアリングを反復的に行う統合フレームワークを検討します。
天然変性タンパク質(IDP)への対応:現在のデータセットにはIDPがほとんど含まれていないため、これらの標的への適用性の検証と拡張が今後の重要な研究課題となります。
おわりに
AlphaFold2以降、「構造をどう使うか?」は創薬AIにとって中心的なテーマとなっています。GenSPARCは、構造認識タンパク質言語モデルSaProtと、化合物言語モデルSPMM+GCNを組み合わせ、配列・構造・物性を統合した次世代のCPI予測モデルです。複数のベンチマークで高い汎化性能を示し、特に「未知の相互作用ペア」や「AlphaFold予測構造を用いた仮想スクリーニング」でその強みを発揮します。今後は、化合物側の3D表現の改善や複合体構造予測モデルとの統合、IDPへの拡張などを通じて、「構造情報をフル活用しつつ、予測構造のノイズにも頑健」な次世代CPI予測へと発展させていくことが期待されます。
なお、本研究は2024年度のPFN夏季インターンシッププログラム期間中に行われた成果です。今回の論文の主著者のYiming Zhangさんからも、2024年PFN夏季インターンについて下記のコメントをいただきました。
PFNの強力な計算資源と、メンターの富田さん、武本さんの手厚いサポートのおかげで、短期間で研究を形にすることができました。自由な雰囲気の中で、社員の方々とランチや議論を楽しめたことも良い思い出です。このインターンで得た経験を、今後の研究活動に活かしていきたいと思います。
参考文献
- Karimi M, Wu D, Wang Z, Shen Y. DeepAffinity: interpretable deep learning of compound-protein affinity through unified recurrent and convolutional neural networks. Bioinformatics. 2019;35: 3329–3338.
- Nguyen T, Le H, Quinn TP, Nguyen T, Le TD, Venkatesh S. GraphDTA: predicting drug-target binding affinity with graph neural networks. Bioinformatics. 2021;37: 1140–1147.
- Chen L, Tan X, Wang D, Zhong F, Liu X, Yang T, et al. TransformerCPI: improving compound-protein interaction prediction by sequence-based deep learning with self-attention mechanism and label reversal experiments. Bioinformatics. 2020;36: 4406–4414.
- Lin Z, Akin H, Rao R, Hie B, Zhu Z, Lu W, et al. Evolutionary-scale prediction of atomic-level protein structure with a language model. Science. 2023;379: 1123–1130.
- Notin P. Have We Hit the Scaling Wall for Protein Language Models? In: Pascal Notin [Internet]. 8 May 2025 [cited 9 Jun 2025]. Available: https://pascalnotin.substack.com/p/have-we-hit-the-scaling-wall-for
- Su J, Han C, Zhou Y, Shan J, Zhou X, Yuan F. SaProt: Protein language modeling with structure-aware vocabulary. bioRxiv. 2023. p. 2023.10.01.560349. doi:10.1101/2023.10.01.560349
- van Kempen M, Kim SS, Tumescheit C, Mirdita M, Lee J, Gilchrist CLM, et al. Fast and accurate protein structure search with Foldseek. Nat Biotechnol. 2024;42: 243–246.
- Chang J, Ye JC. Bidirectional generation of structure and properties through a single molecular foundation model. Nat Commun. 2024;15: 2323.
- Karimi M, Wu D, Wang Z, Shen Y. Explainable deep relational networks for predicting compound-protein affinities and contacts. J Chem Inf Model. 2021;61: 46–66.
- You Y, Shen Y. Cross-modality and self-supervised protein embedding for compound-protein affinity and contact prediction. Bioinformatics. 2022;38: ii68–ii74.
- Wu L, Huang Y, Tan C, Gao Z, Hu B, Lin H, et al. PSC-CPI: Multi-scale Protein Sequence-structure contrasting for efficient and generalizable compound-Protein Interaction prediction. arXiv [q-bio.BM]. 2024. Available: http://arxiv.org/abs/2402.08198
- Gao B, Qiang B, Tan H, Ren M, Jia Y, Lu M, et al. DrugCLIP: Contrastive protein-molecule representation learning for virtual screening. arXiv [cs.LG]. 2023. Available: http://arxiv.org/abs/2310.06367
投稿 Structure-Aware pLMを用いた化合物-タンパク質相互作用予測手法の開発 は Preferred Networks Tech Blog に最初に表示されました。
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み