Resolving Data Bias Improves Generalization in Binding Affinity Prediction
Graber, Stockinger, Meyer, Mishra*, Horn*, Buller* — Nature Machine Intelligence 2025 | DOI: 10.1038/s42256-025-01124-5
💥 SOTAの結合親和性予測スコアはデータリーク由来だった。CleanSplit+GEMSでリーク除去後も唯一性能を維持
① データリーク問題の全貌
CASF複合体の49%が訓練PDBbindにリーク複合体を持つ — これは「試験問題が事前に流出」した状態
タンパク質情報を完全除去してもAutoDock Vina以上の性能が出る(リガンド記憶だけで機能)
最も類似する5訓練複合体のpK平均を返す単純KNN検索がR=0.716を達成 → 多くのDLモデルより高性能

→ 報告されたSOTAスコアの大部分は、真の汎化性ではなく「構造記憶」に起因する

② CleanSplitフィルタ(4層)
Layer 1: ΔpK > 1 → 除外しない(活性崖を保護)

Layer 2: Tanimoto > 0.9 → 除外(リガンド記憶防止)

Layer 3: TM score > 0.8 → 除外(タンパク質構造類似)

Layer 4: Tanimoto+(1-pocket RMSD) > 0.8 → 除外

除去率: 11.8%(4%リーク除去 + 7.8%冗長除去)
③ CleanSplit再訓練後の性能比較
モデル元PDBbind RCleanSplit R変化
Pafnucy0.9060.746▼ 大幅低下
GenScore0.8140.780▼ 低下
GEMS(本研究)competitive0.803✅ 維持・超越
KNN Search (top5)0.7160.653▼ 低下(当然)
RMSE 1.308
GEMS on CleanSplit — CASF2016でSOTA達成
④ GEMSアーキテクチャ

タンパク質-リガンド複合体を疎インタラクショングラフとしてモデル化。

入力特徴量
タンパク質: 言語モデル埋め込み(ESM-2相当)
リガンド: 原子特徴量 + 分子指紋
アーキテクチャ
複数段グラフ畳み込み → グローバルプーリング → 全結合層 → pK回帰
アブレーション
タンパク質ノード除去で性能大幅低下 → 真の相互作用学習を実証
OOD検証
Valsson et al.独立ベンチマークでも競争力を維持
⑤ パイプライン応用ポイント
  • UniDockRunner後段にGEMSリスコアリングを追加 — ドッキングスコアをpK予測で補正
  • 生成モデル(DiffSBDD等)の大量出力に対するGEMSフィルタリング
  • FEP候補選定のプレフィルタとしてGEMSでコスト削減
  • 社内評価にCleanSplitフィルタを導入して「過楽観ベンチマーク」を排除
公開実装あり: github.com/graber-lab/GEMS (CleanSplitデータセット・フィルタ含む)
⑥ lib/docking 実装提案
  • CleanSplitFilterクラス実装(TM-align + Tanimoto + ポケットRMSD)
  • GEMSRescorerクラス — torch_geometric + ESM-2埋め込みで pK 予測
  • 訓練データリーク率・冗長クラスター数を自動モニタリングするQCレポート
実装優先度: HIGH
  • 既存スコアリング評価の再検証が必要(リーク有無を確認)
  • GEMSは生成分子ライブラリのフィルタに即戦力