BENTO: Benchmarking Classical and AI Docking on Drug Design-Relevant Data
Pak, Frolova, Nikolenko, Ivankov et al. (Ligand Pro / Skolkovo) · DOI: 10.64898/2025.12.30.696741 · Dec 2025
📊 11ドッキングツールを4データセット×多軸サブセットで徹底比較。ポケット構造類似性ベースのデータ分割が鍵
① 11ツールの評価対象

古典 (2)

AutoDock Vina, smina

DLドッキング (6)

Gnina, DiffDock, Uni-Mol V2, NeuralPLexer, FlowDock, Matcha(新)

コフォールディング (3)

AlphaFold3, Boltz-2, Chai-1

1,047
評価複合体数(4データセット合算)
② BENTOの革新:ポケット類似性ベース分割
従来: PDB登録日 or 配列類似性でtrain/test分割
↓ 問題: グローバル折りたたみ ≠ 結合ポケット類似性
BENTO: G-LoSA (構造アライメント) GA-score < 0.6 = "未知ポケット"

DLモデルの過学習を明確化 + 実用的創薬評価(ドラッグライクサブセット)を統合

リガンド特性(クラス/複雑度/Tanimoto類似度)をポケット評価から独立して制御

③ サブセット設計5軸
  • リガンドクラス(6カテゴリ+レギュラー)
  • 複雑度(サイズ/柔軟性/埋没率)
  • ドラッグライク(MW200-500, rot≤10)
  • ポケット類似度(GA-score閾値0.6)
  • リガンド類似度(Tanimoto閾値0.7)
④ 主要ベンチマーク結果
シナリオ最高性能ツールKey Finding
Astex(標準)Matcha ≈ Gnina60-80%成功率。ドラッグライク中心で高成績
PoseBusters(品質重視)Gnina → smina → AF3/Boltz-2物理妥当性でGnina/古典が優位
DockGen(未知ポケット)AF3/Chai-1 (14%)全手法が低迷。DLの過学習が鮮明
ドラッグライクサブセットDLドッキング ≈ 古典古典とDLが同等。AF3は中位
複雑リガンドAlphaFold3/Boltz-2コフォールディングが明確に優位
⑤ 重要な発見 4つ
  • ポケット類似度ベース分割が必須
  • 古典・DL・コフォールディングはドラッグライクで同等
  • 複雑リガンドはコフォールディング優位
  • 全手法が未知ポケットに苦労(DLが最も過学習)
Gnina(物理ベース拡張)のみが未知ポケットで相対的に堅牢
⑥ lib/dockingへの実装応用
ツール選定指針

ドラッグライク標準SBVSにはUniDockRunner(Vina系)が十分。複雑リガンドやアロステリックサイトにはAF3コフォールディングを組み合わせる。

ベンチマーク基盤

G-LoSAポケット類似度計算 + リガンドクラス分類をlib/docking評価モジュールに実装。新規ツール追加時の性能比較基盤として活用。

  • GitHub: https://github.com/LigandPro/Bento (コード・データ全公開)
  • Matchaフローマッチングモデルは今後の統合候補(Astex最高性能)
⑦ X投稿用要約

ドッキングツール11種を徹底比較📊 BENTO: ドラッグライク低分子は古典もDLも同等。複雑リガンドはAF3が優位。DLは未知ポケットで過学習。コード全公開 #DrugDiscovery #Docking