UCBbind — Slide

UCBbind: More Accurate Binding Affinity Prediction via Protein Homology and Ligand-Based Transfer Learning

J. Chem. Inf. Model. 66, 2006-2016 | 2026 | DOI: 10.1021/acs.jcim.5c02334

類似参照ペアがあれば実験値を直接転移、無ければDLでフォールバック。CASF-2016・HiQBind post-2020・COVID Moonshotで適応的にSOTA を達成。

① 背景と課題

結合親和性予測は創薬の速度と質を左右する中核タスクである。物理ベース（MMGBSA / FEP）は精度は高いが計算コストが大きく、DLスコアリング関数は推論は速いものの、訓練分布外（新規タンパク・新規リガンド骨格）で精度が大きく劣化する課題が長年残っている。一方、PDBbind や ChEMBL には類似ペア（高ホモロジー保存ポケットに既知リガンドを共有する例など）が多数眠っている。

既存DLは「全クエリを一律にモデル推論」する設計で、参照データに既に答えが存在しても活用しない。

FEPは精度高いが ns/day オーダーのスループットで大規模事前選抜には不向き。

→ 参照があれば実験値を直接転移し、無ければDLで補う適応的ハイブリッドにより、両極の長所を統合する。

② 手法の概要 — UCBbindパイプライン

③ 本研究で示したこと

CASF-2016 コア(285複合体)で Pearson r / Spearman ρ / RMSE が SOTA
HiQBind post-2020(時系列汚染を排除)で転移学習の真の汎化性を確認
COVID Moonshot Mpro 共有結合阻害剤データで活性/非活性分類が機能
類似度閾値より高いサブセットでは精度が劇的向上、低い側はDLで合理的
結合残基同定機能でリガンド接触ホットスポットを併せて出力可能

④ (a) CASF-2016 r vs RMSE

④ (b) 類似度閾値による精度シフト

④ (c) HiQBind post-2020 検証

手法	Pearson r	RMSE
Random Forest (FP)	0.55	1.62
Pafnucy (3D-CNN)	0.62	1.50
GNN baseline	0.64	1.45
UCBbind DL only	0.68	1.38
UCBbind 完全版	0.74	1.21

時系列分離(学習: ≤2020, 評価: post-2020)でデータリーク汚染を排除した条件下での比較。転移ヘッドの寄与で r が約 +0.06 上振れ。

④ (d) COVID Moonshot Mpro 分類

⑤ テイクホームメッセージ

参照×DLのハイブリッド戦略

「データがあれば使い、無ければ学習で補う」二段構成は、結合親和性予測の宿命的な分布外問題に直接対処する設計。

時系列汚染を排した検証

HiQBind post-2020 で訓練分布から完全に外したデータに対しても r=0.74 を維持。転移ヘッドの実利が定量化された。

類似度閾値が性能を支配

配列同一性・Tanimoto の閾値設定で精度が大きく動く。標的依存の最適化が新たな運用課題として明示された。

参照DBの保守が肝

PDBbind / ChEMBL の継続的な更新と再インデックスがそのまま予測精度の更新につながる「DB駆動型MLスコアリング」。

応用補足 — lib/fep への適用

FEP/MMGBSA 事前フィルタとして UCBbind を使用し、FEP 計算対象を絞り込み
類似度閾値を超えるペアは参照値を初期推定に流用、しないペアのみ FEP 実行
MMGBSAEngine に reference_transfer_score() を追加し pre-screen 化
結合残基出力を ProLIFCalculator のホットスポット入力として再利用

インパクト

結合親和性予測を「ML 一本足」から「データ参照 + ML 補完」へとパラダイム拡張
FEP 大量計算前のスマート pre-screen として GPU 不要で運用可能
JCIM 特集号「FE Calculations to Biomolecular Processes」採録