Resolving Data Bias Improves Generalization in Binding Affinity Prediction
Graber, Stockinger, Meyer, Mishra*, Horn*, Buller* — Nature Machine Intelligence 2025 | DOI: 10.1038/s42256-025-01124-5
💥 SOTAの結合親和性予測スコアはデータリーク由来だった。CleanSplit+GEMSでリーク除去後も唯一性能を維持
① データリーク問題の全貌
CASF複合体の49%
が訓練PDBbindにリーク複合体を持つ — これは「試験問題が事前に流出」した状態
タンパク質情報を
完全除去
してもAutoDock Vina以上の性能が出る(リガンド記憶だけで機能)
最も類似する5訓練複合体のpK平均を返す
単純KNN検索
がR=0.716を達成 → 多くのDLモデルより高性能
→ 報告されたSOTAスコアの大部分は、真の汎化性ではなく「構造記憶」に起因する
② CleanSplitフィルタ(4層)
Layer 1: ΔpK > 1 → 除外しない(活性崖を保護)
↓
Layer 2: Tanimoto > 0.9 → 除外(リガンド記憶防止)
↓
Layer 3: TM score > 0.8 → 除外(タンパク質構造類似)
↓
Layer 4: Tanimoto+(1-pocket RMSD) > 0.8 → 除外
↓
除去率: 11.8%(4%リーク除去 + 7.8%冗長除去)
③ CleanSplit再訓練後の性能比較
モデル
元PDBbind R
CleanSplit R
変化
Pafnucy
0.906
0.746
▼ 大幅低下
GenScore
0.814
0.780
▼ 低下
GEMS(本研究)
competitive
0.803
✅ 維持・超越
KNN Search (top5)
0.716
0.653
▼ 低下(当然)
RMSE 1.308
GEMS on CleanSplit — CASF2016でSOTA達成
④ GEMSアーキテクチャ
タンパク質-リガンド複合体を
疎インタラクショングラフ
としてモデル化。
入力特徴量
タンパク質: 言語モデル埋め込み(ESM-2相当)
リガンド: 原子特徴量 + 分子指紋
アーキテクチャ
複数段グラフ畳み込み → グローバルプーリング → 全結合層 → pK回帰
アブレーション
タンパク質ノード除去で性能大幅低下 → 真の相互作用学習を実証
OOD検証
Valsson et al.独立ベンチマークでも競争力を維持
⑤ パイプライン応用ポイント
UniDockRunner後段にGEMSリスコアリングを追加 — ドッキングスコアをpK予測で補正
生成モデル(DiffSBDD等)の大量出力に対するGEMSフィルタリング
FEP候補選定のプレフィルタとしてGEMSでコスト削減
社内評価にCleanSplitフィルタを導入して「過楽観ベンチマーク」を排除
公開実装あり: github.com/graber-lab/GEMS (CleanSplitデータセット・フィルタ含む)
⑥ lib/docking 実装提案
CleanSplitFilter
クラス実装(TM-align + Tanimoto + ポケットRMSD)
GEMSRescorer
クラス — torch_geometric + ESM-2埋め込みで pK 予測
訓練データリーク率・冗長クラスター数を自動モニタリングするQCレポート
実装優先度: HIGH
既存スコアリング評価の再検証が必要(リーク有無を確認)
GEMSは生成分子ライブラリのフィルタに即戦力