結合親和性予測は創薬の速度と質を左右する中核タスクである。物理ベース(MMGBSA / FEP)は精度は高いが計算コストが大きく、DLスコアリング関数は推論は速いものの、訓練分布外(新規タンパク・新規リガンド骨格)で精度が大きく劣化する課題が長年残っている。一方、PDBbind や ChEMBL には類似ペア(高ホモロジー保存ポケットに既知リガンドを共有する例など)が多数眠っている。
→ 参照があれば実験値を直接転移し、無ければDLで補う適応的ハイブリッドにより、両極の長所を統合する。
| 手法 | Pearson r | RMSE |
|---|---|---|
| Random Forest (FP) | 0.55 | 1.62 |
| Pafnucy (3D-CNN) | 0.62 | 1.50 |
| GNN baseline | 0.64 | 1.45 |
| UCBbind DL only | 0.68 | 1.38 |
| UCBbind 完全版 | 0.74 | 1.21 |
時系列分離(学習: ≤2020, 評価: post-2020)でデータリーク汚染を排除した条件下での比較。転移ヘッドの寄与で r が約 +0.06 上振れ。
「データがあれば使い、無ければ学習で補う」二段構成は、結合親和性予測の宿命的な分布外問題に直接対処する設計。
HiQBind post-2020 で訓練分布から完全に外したデータに対しても r=0.74 を維持。転移ヘッドの実利が定量化された。
配列同一性・Tanimoto の閾値設定で精度が大きく動く。標的依存の最適化が新たな運用課題として明示された。
PDBbind / ChEMBL の継続的な更新と再インデックスがそのまま予測精度の更新につながる「DB駆動型MLスコアリング」。
reference_transfer_score() を追加し pre-screen 化