Beyond Affinity: A Comprehensive Benchmark for Structure-Based Drug Design Methods
TMLR 2026 | arXiv: 2601.14283 | January 2026
🎯 SBDD の 15 手法を「親和性」以外の多軸(選択性・ADMET・合成アクセス可能性・生物活性)で包括評価するベンチマークを構築し、単一評価軸に依拠した手法選定の危険性を実証する。
① 背景と課題

既存の SBDD ベンチマーク(PDBbind・CASF・DUD-E)は結合親和性・ポーズ精度に特化しており、実際の創薬キャンペーンで不可欠な選択性・成薬性・合成可能性は評価されていなかった。この「評価ギャップ」により、親和性で高スコアな手法が実践的な創薬では機能しないケースが見逃されてきた。

PDBbind/CASF は親和性・ポーズ精度のみ—選択性・ADMET・合成アクセス性を評価しない
各論文が独自条件で評価するため手法間の公平な比較が困難—「実力」が見えにくい

→ 15 手法を Docker 標準環境で統一再実装し、5 軸評価フレームワークで公平比較

② 手法: 5軸評価フレームワーク
ベンチマーク評価軸 SBDD 15 手法 ① 結合親和性 (Pearson/RMSE) ② 選択性 オフターゲット比 ③ ADMET CYP/hERG/溶解度 ④ 合成アクセス可能性 (SAScore) ⑤ 生物活性 実験値との比較
② 手法: 評価対象 15 手法

Docker 標準環境で全手法を統一再実装・実行—再現性確保

カテゴリ代表手法
深層学習ドッキングDiffDock, DiffDock-L
物理ベースVina, AutoDock-GPU, Glide
親和性予測複数 GNN/CNN 手法
ポケット検出複数ディープラーニング手法

→ 最新 PDB(2023 年以降)+ MoleculeNet 実験活性データで評価

③ 本研究で示したこと(要点)
  • 15 手法を親和性・選択性・ADMET・合成可能性の 4+ 軸で体系比較した初の包括ベンチマーク
  • 親和性精度で優れる手法が選択性・合成アクセス性で劣る傾向を実証—多軸評価の必然性
  • 物理ベース手法が選択性で深層学習より安定した性能を示す知見
  • TMLR 2026 査読採択—コミュニティのリファレンスとなる信頼性
④ 主な結果 (a) 手法ごとの軸別パフォーマンス傾向
評価軸ごとの手法タイプ傾向 親和性 選択性 ADMET 合成 DL系 物理系 → 単一手法が全軸で最高にならない ユースケースに応じた手法選定が必要
④ 主な結果 (b) 手法数・評価規模
15
評価対象手法数(DiffDock・Vina・Glide 等を網羅)
5+
評価軸数(親和性・選択性・ADMET・合成・生物活性)
2023+
ホールドアウト PDB 構造(データリーク回避)
④ 主な結果 (c) 物理 vs AI 手法の傾向
評価軸物理ベース深層学習
親和性 Pearson
ポーズ精度
選択性安定不安定
合成アクセス性低い傾向
計算 ADMET低い傾向
④ 主な結果 (d) 評価プラットフォーム
AI リーダーボード構成 GitHub 評価コード・データ オンラインLB 新手法を随時追加 Docker 標準化環境 全手法を同一条件で再実装—公平比較を保証 TMLR 2026 査読採択済み — 信頼できるリファレンス
⑤ テイクホームメッセージ
多軸評価の必然性
親和性に優れる手法が選択性・ADMET・合成可能性で劣る傾向が実証された。単一指標での手法選定は創薬現場では不十分。
物理 vs DL の棲み分け
DL はポーズ精度・親和性予測が優位、物理ベースは選択性・ADMET で安定。用途別の使い分けが重要。
lib/docking への直接還元
UniDockRunner / ProLIFCalculator の評価設計に選択性・ADMET・SAScore 多目的スコアリングを追加する根拠となる。
公平ベンチマークの価値
Docker 標準化・ホールドアウト 2023+ データ・TMLR 査読—コミュニティのリファレンスとして長期的に参照される。
既存ベンチマークとの比較
ベンチマーク親和性選択性ADMET合成
PDBbind
CASF
DUD-E
本論文
本研究のインパクト
  • lib/docking: UniDockRunner の多目的スコアリングに選択性スコア・ADMET・SAScore を実装する設計根拠
  • スクリーニングパイプラインの評価軸設計の最新リファレンスとして参照可能
  • TMLR 2026 査読済み—新規手法との比較基準として長期的に価値を保つ