PoseBench: Assessing DL for Protein

PoseBench: Assessing the Potential of Deep Learning for Protein–Ligand Docking

Nat. Machine Intelligence 2025 — Morehead, Giri, Liu, Neupane, Cheng | DOI: 10.1038/s42256-025-01160-1

🎯 apo 構造 × ポケット非指定 × マルチリガンドの3条件で DL ドッキング手法の実用性能を初めて体系的に評価

① 背景と課題

近年の DL ドッキング手法（DiffDock/Chai-1/AF3 等）は結晶構造既知・ポケット指定という非現実的な条件でのみ評価されることが多く、実創薬への適用性が不明確だった。

holo 結晶構造を使用した評価 → 実際は apo/予測構造のみ利用可能

既知ポケット指定 → 新規標的では利用不可

単一リガンド評価のみ → コファクター含む複雑な酵素系は未評価

→ PoseBench: 4データセット × 11手法 × 統一 apo 条件で包括的ベンチマークを実施

② PoseBench の設計

入力: AF3 予測 apo 構造 + 標準 MSA（ポケット非指定）
↓ 4データセット: Astex/DockGen-E/PoseBusters/CASP15
↓ 11手法: P2Rank+Vina, DiffDock-L, DynamicBind,
NeuralPLexer, RFAA, Chai-1±MSA, Boltz-1±MSA, AF3±MSA
↓ 評価指標: RMSD ≤ 2Å / PB-Valid / PLIF-WM（新規）

② 新指標 PLIF-WM

アミノ酸別タンパク質-リガンド相互作用フィンガープリント（PLIF）の予測精度を Wasserstein 距離で評価する新規指標。

PLIF-WM

水素結合・疎水接触の残基特異的再現度を定量

RMSD だけでは「位置は合っているが相互作用が違う」偽陽性ポーズを検出できない問題を解決

③ 主要発見

DL cofolding (AF3/Chai-1/Boltz-1) が従来 Vina を全体的に上回る
AF3 は MSA 依存が高い — Single-Seq で性能が大幅低下
Chai-1 は ESM2 により MSA なしでも化学特異性を維持
新規ポケット（DockGen-E）での一次リガンド精度は 64% が上限
マルチリガンドの化学特異性 (CASP15) は 46% が上限

④ Astex Diverse 結果（容易）

手法	RMSD≤2Å+PB-Valid	PLIF-WM
P2Rank+Vina	57.5%	~68%
DiffDock-L	57.5%	~64%
Chai-1	77.8%	~77%
AF3	77.4%	~74%
Boltz-1	71.8%	~71%

④ DockGen-E 結果（OOD 困難）

手法	RMSD≤2Å+PB-Valid	PLIF-WM
P2Rank+Vina	3.7%	~62%
DiffDock-L	1.3%	~60%
Chai-1	15.0%	~60%
AF3	28.0%	~59%
Boltz-1	14.0%	~60%

④ MSA 依存性（PoseBusters）

手法	MSAあり	MSAなし
AF3	64.3%	40.5%
Boltz-1	56.8%	57.6%
Chai-1	57.6%	57.9%

AF3 は MSA なしで -24pp。Chai-1/Boltz-1 はほぼ変化なし。ESM2 が MSA を代替

④ 全手法が失敗するケース

金属輸送タンパク — 金属配位結合が DL では未学習

フラボタンパク — 大型コファクター（FAD 等）の配置

RNA 結合タンパク — 非 standard PLI

免疫タンパク / 酸化還元酵素 — 複雑なマルチリガンド配置

→ 訓練データ（PDB）の偏りを反映した系統的弱点

⑤ テイクホームメッセージ

📊 実用条件での限界が明確に
新規ポケットで 64%、マルチリガンドで 46%。DL 手法はまだ本番投入に慎重さが必要。

⚠️ AF3 の MSA 依存リスク
新規タンパクで MSA が少ない場合、AF3 の性能は大幅に落ちる。Chai-1 が代替選択肢。

🎯 PLIF-WM が新しいスタンダードに
RMSD だけでは見えない化学特異性の問題を定量化。ポーズ評価の新基準として有望。

🔓 PoseBench は OSS 公開済み
github.com/BioinfoMachineLearning/PoseBench で即利用可能。社内 CI テストに統合できる。

ケムインフォマティクスへの応用

適用先	提案
lib/docking	PLIF-WM / PB-Valid を UniDockRunner 後処理に統合
lib/docking	DockGen-E で社内パイプラインの定期汎化テスト
lib/docking	Chai-1 Single-Seq モードで MSA コスト削減 VS
lib/md	DL 予測構造の MD relaxation 品質を PB-Valid で判定

本研究のインパクト

現実条件での DL ドッキング性能の「天井」を初めて定量化
PLIF-WM という化学特異性評価の新指標を提案・公開
DockGen-E（OOD 評価用データセット）を新たにコミュニティに提供
AF3/Chai-1/Boltz-1 の MSA 依存性の実用的影響を明確化