Resolving Data Bias Improves Generalization in Binding Affinity Prediction

Graber, Stockinger, Meyer, Mishra*, Horn*, Buller* — Nature Machine Intelligence 2025 | DOI: 10.1038/s42256-025-01124-5

💥 SOTAの結合親和性予測スコアはデータリーク由来だった。CleanSplit+GEMSでリーク除去後も唯一性能を維持

① データリーク問題の全貌

CASF複合体の49%が訓練PDBbindにリーク複合体を持つ — これは「試験問題が事前に流出」した状態

タンパク質情報を完全除去してもAutoDock Vina以上の性能が出る（リガンド記憶だけで機能）

最も類似する5訓練複合体のpK平均を返す単純KNN検索がR=0.716を達成 → 多くのDLモデルより高性能

→ 報告されたSOTAスコアの大部分は、真の汎化性ではなく「構造記憶」に起因する

② CleanSplitフィルタ（4層）

Layer 1: ΔpK > 1 → 除外しない（活性崖を保護）
↓
Layer 2: Tanimoto > 0.9 → 除外（リガンド記憶防止）
↓
Layer 3: TM score > 0.8 → 除外（タンパク質構造類似）
↓
Layer 4: Tanimoto+(1-pocket RMSD) > 0.8 → 除外
↓
除去率: 11.8%（4%リーク除去 + 7.8%冗長除去）

③ CleanSplit再訓練後の性能比較

モデル	元PDBbind R	CleanSplit R	変化
Pafnucy	0.906	0.746	▼ 大幅低下
GenScore	0.814	0.780	▼ 低下
GEMS（本研究）	competitive	0.803	✅ 維持・超越
KNN Search (top5)	0.716	0.653	▼ 低下（当然）

RMSE 1.308

GEMS on CleanSplit — CASF2016でSOTA達成

④ GEMSアーキテクチャ

タンパク質-リガンド複合体を疎インタラクショングラフとしてモデル化。

入力特徴量
タンパク質: 言語モデル埋め込み（ESM-2相当）
リガンド: 原子特徴量 + 分子指紋

アーキテクチャ
複数段グラフ畳み込み → グローバルプーリング → 全結合層 → pK回帰

アブレーション
タンパク質ノード除去で性能大幅低下 → 真の相互作用学習を実証

OOD検証
Valsson et al.独立ベンチマークでも競争力を維持

⑤ パイプライン応用ポイント

UniDockRunner後段にGEMSリスコアリングを追加 — ドッキングスコアをpK予測で補正
生成モデル（DiffSBDD等）の大量出力に対するGEMSフィルタリング
FEP候補選定のプレフィルタとしてGEMSでコスト削減
社内評価にCleanSplitフィルタを導入して「過楽観ベンチマーク」を排除

公開実装あり: github.com/graber-lab/GEMS （CleanSplitデータセット・フィルタ含む）

⑥ lib/docking 実装提案

CleanSplitFilterクラス実装（TM-align + Tanimoto + ポケットRMSD）
GEMSRescorerクラス — torch_geometric + ESM-2埋め込みで pK 予測
訓練データリーク率・冗長クラスター数を自動モニタリングするQCレポート

実装優先度: HIGH

既存スコアリング評価の再検証が必要（リーク有無を確認）

GEMSは生成分子ライブラリのフィルタに即戦力