PoseBench: Assessing the Potential of Deep Learning for Protein–Ligand Docking
Nat. Machine Intelligence 2025 — Morehead, Giri, Liu, Neupane, Cheng | DOI: 10.1038/s42256-025-01160-1
🎯 apo 構造 × ポケット非指定 × マルチリガンドの3条件で DL ドッキング手法の実用性能を初めて体系的に評価
① 背景と課題

近年の DL ドッキング手法(DiffDock/Chai-1/AF3 等)は結晶構造既知・ポケット指定という非現実的な条件でのみ評価されることが多く、実創薬への適用性が不明確だった。

holo 結晶構造を使用した評価 → 実際は apo/予測構造のみ利用可能
既知ポケット指定 → 新規標的では利用不可
単一リガンド評価のみ → コファクター含む複雑な酵素系は未評価

→ PoseBench: 4データセット × 11手法 × 統一 apo 条件で包括的ベンチマークを実施

② PoseBench の設計
入力: AF3 予測 apo 構造 + 標準 MSA(ポケット非指定)
↓ 4データセット: Astex/DockGen-E/PoseBusters/CASP15
↓ 11手法: P2Rank+Vina, DiffDock-L, DynamicBind,
NeuralPLexer, RFAA, Chai-1±MSA, Boltz-1±MSA, AF3±MSA
↓ 評価指標: RMSD ≤ 2Å / PB-Valid / PLIF-WM(新規)
② 新指標 PLIF-WM

アミノ酸別タンパク質-リガンド相互作用フィンガープリント(PLIF)の予測精度を Wasserstein 距離で評価する新規指標。

PLIF-WM
水素結合・疎水接触の残基特異的再現度を定量

RMSD だけでは「位置は合っているが相互作用が違う」偽陽性ポーズを検出できない問題を解決

③ 主要発見
  • DL cofolding (AF3/Chai-1/Boltz-1) が従来 Vina を全体的に上回る
  • AF3 は MSA 依存が高い — Single-Seq で性能が大幅低下
  • Chai-1 は ESM2 により MSA なしでも化学特異性を維持
  • 新規ポケット(DockGen-E)での一次リガンド精度は 64% が上限
  • マルチリガンドの化学特異性 (CASP15) は 46% が上限
④ Astex Diverse 結果(容易)
手法RMSD≤2Å+PB-ValidPLIF-WM
P2Rank+Vina57.5%~68%
DiffDock-L57.5%~64%
Chai-177.8%~77%
AF377.4%~74%
Boltz-171.8%~71%
④ DockGen-E 結果(OOD 困難)
手法RMSD≤2Å+PB-ValidPLIF-WM
P2Rank+Vina3.7%~62%
DiffDock-L1.3%~60%
Chai-115.0%~60%
AF328.0%~59%
Boltz-114.0%~60%
④ MSA 依存性(PoseBusters)
手法MSAありMSAなし
AF364.3%40.5%
Boltz-156.8%57.6%
Chai-157.6%57.9%

AF3 は MSA なしで -24pp。Chai-1/Boltz-1 はほぼ変化なし。ESM2 が MSA を代替

④ 全手法が失敗するケース
金属輸送タンパク — 金属配位結合が DL では未学習
フラボタンパク — 大型コファクター(FAD 等)の配置
RNA 結合タンパク — 非 standard PLI
免疫タンパク / 酸化還元酵素 — 複雑なマルチリガンド配置

→ 訓練データ(PDB)の偏りを反映した系統的弱点

⑤ テイクホームメッセージ
📊 実用条件での限界が明確に
新規ポケットで 64%、マルチリガンドで 46%。DL 手法はまだ本番投入に慎重さが必要。
⚠️ AF3 の MSA 依存リスク
新規タンパクで MSA が少ない場合、AF3 の性能は大幅に落ちる。Chai-1 が代替選択肢。
🎯 PLIF-WM が新しいスタンダードに
RMSD だけでは見えない化学特異性の問題を定量化。ポーズ評価の新基準として有望。
🔓 PoseBench は OSS 公開済み
github.com/BioinfoMachineLearning/PoseBench で即利用可能。社内 CI テストに統合できる。
ケムインフォマティクスへの応用
適用先提案
lib/dockingPLIF-WM / PB-Valid を UniDockRunner 後処理に統合
lib/dockingDockGen-E で社内パイプラインの定期汎化テスト
lib/dockingChai-1 Single-Seq モードで MSA コスト削減 VS
lib/mdDL 予測構造の MD relaxation 品質を PB-Valid で判定
本研究のインパクト
  • 現実条件での DL ドッキング性能の「天井」を初めて定量化
  • PLIF-WM という化学特異性評価の新指標を提案・公開
  • DockGen-E(OOD 評価用データセット)を新たにコミュニティに提供
  • AF3/Chai-1/Boltz-1 の MSA 依存性の実用的影響を明確化