BENTO: Benchmarking Classical and AI Docking on Drug Design-Relevant Data

Pak, Frolova, Nikolenko, Ivankov et al. (Ligand Pro / Skolkovo) · DOI: 10.64898/2025.12.30.696741 · Dec 2025

📊 11ドッキングツールを4データセット×多軸サブセットで徹底比較。ポケット構造類似性ベースのデータ分割が鍵

① 11ツールの評価対象

古典 (2)

AutoDock Vina, smina

DLドッキング (6)

Gnina, DiffDock, Uni-Mol V2, NeuralPLexer, FlowDock, Matcha(新)

コフォールディング (3)

AlphaFold3, Boltz-2, Chai-1

1,047

評価複合体数（4データセット合算）

② BENTOの革新：ポケット類似性ベース分割

従来: PDB登録日 or 配列類似性でtrain/test分割
↓ 問題: グローバル折りたたみ ≠ 結合ポケット類似性
BENTO: G-LoSA (構造アライメント) GA-score < 0.6 = "未知ポケット"
↓
DLモデルの過学習を明確化 + 実用的創薬評価（ドラッグライクサブセット）を統合

リガンド特性（クラス/複雑度/Tanimoto類似度）をポケット評価から独立して制御

③ サブセット設計5軸

リガンドクラス（6カテゴリ+レギュラー）
複雑度（サイズ/柔軟性/埋没率）
ドラッグライク（MW200-500, rot≤10）
ポケット類似度（GA-score閾値0.6）
リガンド類似度（Tanimoto閾値0.7）

④ 主要ベンチマーク結果

シナリオ	最高性能ツール	Key Finding
Astex（標準）	Matcha ≈ Gnina	60-80%成功率。ドラッグライク中心で高成績
PoseBusters（品質重視）	Gnina → smina → AF3/Boltz-2	物理妥当性でGnina/古典が優位
DockGen（未知ポケット）	AF3/Chai-1 (14%)	全手法が低迷。DLの過学習が鮮明
ドラッグライクサブセット	DLドッキング ≈ 古典	古典とDLが同等。AF3は中位
複雑リガンド	AlphaFold3/Boltz-2	コフォールディングが明確に優位

⑤ 重要な発見 4つ

ポケット類似度ベース分割が必須
古典・DL・コフォールディングはドラッグライクで同等
複雑リガンドはコフォールディング優位
全手法が未知ポケットに苦労（DLが最も過学習）

Gnina（物理ベース拡張）のみが未知ポケットで相対的に堅牢

⑥ lib/dockingへの実装応用

ツール選定指針

ドラッグライク標準SBVSにはUniDockRunner（Vina系）が十分。複雑リガンドやアロステリックサイトにはAF3コフォールディングを組み合わせる。

ベンチマーク基盤

G-LoSAポケット類似度計算 + リガンドクラス分類をlib/docking評価モジュールに実装。新規ツール追加時の性能比較基盤として活用。

GitHub: https://github.com/LigandPro/Bento (コード・データ全公開)
Matchaフローマッチングモデルは今後の統合候補（Astex最高性能）

⑦ X投稿用要約

ドッキングツール11種を徹底比較📊 BENTO: ドラッグライク低分子は古典もDLも同等。複雑リガンドはAF3が優位。DLは未知ポケットで過学習。コード全公開 #DrugDiscovery #Docking