Beyond Affinity: A Comprehensive Benchmark for Structure-Based Drug Design Methods

TMLR 2026 | arXiv: 2601.14283 | January 2026

🎯 SBDD の 15 手法を「親和性」以外の多軸（選択性・ADMET・合成アクセス可能性・生物活性）で包括評価するベンチマークを構築し、単一評価軸に依拠した手法選定の危険性を実証する。

① 背景と課題

既存の SBDD ベンチマーク（PDBbind・CASF・DUD-E）は結合親和性・ポーズ精度に特化しており、実際の創薬キャンペーンで不可欠な選択性・成薬性・合成可能性は評価されていなかった。この「評価ギャップ」により、親和性で高スコアな手法が実践的な創薬では機能しないケースが見逃されてきた。

PDBbind/CASF は親和性・ポーズ精度のみ—選択性・ADMET・合成アクセス性を評価しない

各論文が独自条件で評価するため手法間の公平な比較が困難—「実力」が見えにくい

→ 15 手法を Docker 標準環境で統一再実装し、5 軸評価フレームワークで公平比較

② 手法: 5軸評価フレームワーク

② 手法: 評価対象 15 手法

Docker 標準環境で全手法を統一再実装・実行—再現性確保

→ 最新 PDB（2023 年以降）+ MoleculeNet 実験活性データで評価

③ 本研究で示したこと（要点）

④ 主な結果 (a) 手法ごとの軸別パフォーマンス傾向

④ 主な結果 (b) 手法数・評価規模

評価対象手法数（DiffDock・Vina・Glide 等を網羅）

評価軸数（親和性・選択性・ADMET・合成・生物活性）

2023+

ホールドアウト PDB 構造（データリーク回避）

④ 主な結果 (c) 物理 vs AI 手法の傾向

④ 主な結果 (d) 評価プラットフォーム

⑤ テイクホームメッセージ

多軸評価の必然性
親和性に優れる手法が選択性・ADMET・合成可能性で劣る傾向が実証された。単一指標での手法選定は創薬現場では不十分。

物理 vs DL の棲み分け
DL はポーズ精度・親和性予測が優位、物理ベースは選択性・ADMET で安定。用途別の使い分けが重要。

lib/docking への直接還元
UniDockRunner / ProLIFCalculator の評価設計に選択性・ADMET・SAScore 多目的スコアリングを追加する根拠となる。

公平ベンチマークの価値
Docker 標準化・ホールドアウト 2023+ データ・TMLR 査読—コミュニティのリファレンスとして長期的に参照される。

既存ベンチマークとの比較

ベンチマーク	親和性	選択性	ADMET	合成
PDBbind	✓	✗	✗	✗
CASF	✓	✗	✗	✗
DUD-E	△	✗	✗	✗
本論文	✓	✓	✓	✓

本研究のインパクト