Benchmarking Active Learning VS: Vina / Glide / SILCS-MC at a Transmembrane Binding Site
Chung, Bhatt, Lin, Zhao, MacKerell, Jo & Luo · ChemRxiv 2025 · DOI: 10.26434/chemrxiv-2025-3t356
🎯 4種の能動学習VSプロトコル(Vina/Glide/SILCS-MC × MolPAL)をPIEZO2膜貫通部位でベンチマーク。ドッキングエンジンの選択が性能の鍵であることを実証。
② MolPAL 能動学習ループ
① ランダム初期バッチ(1%) → ドッキング → D-MPNN学習
② 全未探索分子のスコア予測 → Top-k% 選択
③ 選択分子をドッキング → ② に戻る (×6 iter)

サロゲートモデル: D-MPNN (Chemprop) + greedy acquisition

探索済み: ライブラリの6%(1%×6)

~94%
計算コスト削減率(対全件ドッキング)
③ ベンチマーク結果(45,000化合物、PIEZO2、Top-1% 回収率)
Vina-MolPAL (1% batch)
75.7%
SILCS-MolPAL (1% batch)
62.4%
Schrödinger AL-Glide
56.0%
Glide-MolPAL (1% batch)
54.3%
プロトコルTop-1% (1%batch)R² (1%)Top-1% (5%batch)
Vina-MolPAL75.7 ± 1.7%0.8599.9%
SILCS-MolPAL62.4 ± 2.1%0.7899.2%
Schrödinger AL56.0 ± 9.0%89.0%
Glide-MolPAL54.3 ± 0.9%0.5189.9%
④ SILCS-MC の特長と価値
  • MDシミュレーション + 官能基競合飽和でFragMaps生成(apolar/HBD/HBA)
  • POPC脂質二重層を陽示的に考慮 → 膜貫通部位に本質的に優位
  • 5%バッチで99.2%回収率 → Vina と事実上同等
  • 膜タンパク質407リガンドで有効性実証済み
計算コスト: 60秒/化合物(Vina: 1秒)→ ALなしでは非実用的
⑤ 限界点
45,000化合物規模のみ検証 — 数十億規模へのスケーラビリティは未検証
Glide の予測精度低さ(R²=0.51)の原因分析が不十分
仮想ヒット → 実験活性の相関は未評価
⑥ lib/docking 実装提案

UniDockRunner × 能動学習ループの統合

  • D-MPNN (Chemprop) サロゲート + greedy acquisition
  • バッチサイズ・イテレーション数はハイパーパラメータとして設定可能に
  • 回収率 (top-k% recovery) を評価指標として自動ログ

GitHub:

MolPAL: github.com/coleygroup/molpal

Chemprop: github.com/chemprop/chemprop