UCBbind: More Accurate Binding Affinity Prediction via Protein Homology and Ligand-Based Transfer Learning
J. Chem. Inf. Model. 66, 2006-2016 | 2026 | DOI: 10.1021/acs.jcim.5c02334
類似参照ペアがあれば実験値を直接転移、無ければDLでフォールバック。CASF-2016・HiQBind post-2020・COVID Moonshotで適応的にSOTA を達成。
① 背景と課題

結合親和性予測は創薬の速度と質を左右する中核タスクである。物理ベース(MMGBSA / FEP)は精度は高いが計算コストが大きく、DLスコアリング関数は推論は速いものの、訓練分布外(新規タンパク・新規リガンド骨格)で精度が大きく劣化する課題が長年残っている。一方、PDBbind や ChEMBL には類似ペア(高ホモロジー保存ポケットに既知リガンドを共有する例など)が多数眠っている。

既存DLは「全クエリを一律にモデル推論」する設計で、参照データに既に答えが存在しても活用しない。
FEPは精度高いが ns/day オーダーのスループットで大規模事前選抜には不向き。

→ 参照があれば実験値を直接転移し、無ければDLで補う適応的ハイブリッドにより、両極の長所を統合する。

② 手法の概要 — UCBbindパイプライン
クエリ (タンパク質, リガンド) ペア 参照DB検索 (PDBbind / ChEMBL) 配列同一性 (MMseqs2) × Tanimoto (ECFP4) 類似度 ≥ 閾値? YES NO 参照実験値の転移 (類似度重み付き補外/GP) DL予測モジュール (GNN / Transformer) 予測 pK + 結合残基
③ 本研究で示したこと
  • CASF-2016 コア(285複合体)で Pearson r / Spearman ρ / RMSE が SOTA
  • HiQBind post-2020(時系列汚染を排除)で転移学習の真の汎化性を確認
  • COVID Moonshot Mpro 共有結合阻害剤データで活性/非活性分類が機能
  • 類似度閾値より高いサブセットでは精度が劇的向上、低い側はDLで合理的
  • 結合残基同定機能でリガンド接触ホットスポットを併せて出力可能
④ (a) CASF-2016 r vs RMSE
CASF-2016 コア (285 複合体) Pearson r (高いほど良) RMSE (低いほど良) 2.0 1.5 1.0 0.6 0.75 0.9 MMGBSA Vina DL baseline UCBbind (DL only) UCBbind 全体 (SOTA)
④ (b) 類似度閾値による精度シフト
参照類似度ビン別 RMSE (kcal/mol) 2.0 1.5 1.0 0.5 参照なし ~1.55 低類似 ~1.30 中類似 ~1.05 高類似 ~0.6 転移効果 ↑
④ (c) HiQBind post-2020 検証
手法Pearson rRMSE
Random Forest (FP)0.551.62
Pafnucy (3D-CNN)0.621.50
GNN baseline0.641.45
UCBbind DL only0.681.38
UCBbind 完全版0.741.21

時系列分離(学習: ≤2020, 評価: post-2020)でデータリーク汚染を排除した条件下での比較。転移ヘッドの寄与で r が約 +0.06 上振れ。

④ (d) COVID Moonshot Mpro 分類
活性 vs 非活性 (Mpro 共有結合) 化合物 (活性順にソート) UCBbind予測 pK 活性 (IC50<10μM) 中間 非活性
⑤ テイクホームメッセージ
参照×DLのハイブリッド戦略

「データがあれば使い、無ければ学習で補う」二段構成は、結合親和性予測の宿命的な分布外問題に直接対処する設計。

時系列汚染を排した検証

HiQBind post-2020 で訓練分布から完全に外したデータに対しても r=0.74 を維持。転移ヘッドの実利が定量化された。

類似度閾値が性能を支配

配列同一性・Tanimoto の閾値設定で精度が大きく動く。標的依存の最適化が新たな運用課題として明示された。

参照DBの保守が肝

PDBbind / ChEMBL の継続的な更新と再インデックスがそのまま予測精度の更新につながる「DB駆動型MLスコアリング」。

応用補足 — lib/fep への適用
  • FEP/MMGBSA 事前フィルタとして UCBbind を使用し、FEP 計算対象を絞り込み
  • 類似度閾値を超えるペアは参照値を初期推定に流用、しないペアのみ FEP 実行
  • MMGBSAEngine に reference_transfer_score() を追加し pre-screen 化
  • 結合残基出力を ProLIFCalculator のホットスポット入力として再利用
インパクト
  • 結合親和性予測を「ML 一本足」から「データ参照 + ML 補完」へとパラダイム拡張
  • FEP 大量計算前のスマート pre-screen として GPU 不要で運用可能
  • JCIM 特集号「FE Calculations to Biomolecular Processes」採録