Benchmarking Active Learning VS: Vina vs Glide vs SILCS

Benchmarking Active Learning VS: Vina / Glide / SILCS-MC at a Transmembrane Binding Site

Chung, Bhatt, Lin, Zhao, MacKerell, Jo & Luo · ChemRxiv 2025 · DOI: 10.26434/chemrxiv-2025-3t356

🎯 4種の能動学習VSプロトコル（Vina/Glide/SILCS-MC × MolPAL）をPIEZO2膜貫通部位でベンチマーク。ドッキングエンジンの選択が性能の鍵であることを実証。

① 背景 — 大規模ライブラリと膜タンパク質の課題

ZINC22（370億化合物）など超大規模ライブラリの全件ドッキングは現実的に不可能。能動学習（AL）でサンプリングを効率化する必要がある。

膜貫通結合部位：既存スコアリング関数は可溶性タンパク質向けに最適化 → 膜タンパク質での予測精度が低い

SILCS-MCは膜環境を考慮できるが60秒/化合物（Vina比60倍） → 能動学習統合が必須

ターゲット: PIEZO2イオンチャネル膜貫通ポア（POPC脂質包埋）

② MolPAL 能動学習ループ

① ランダム初期バッチ(1%) → ドッキング → D-MPNN学習

② 全未探索分子のスコア予測 → Top-k% 選択

③ 選択分子をドッキング → ② に戻る (×6 iter)

サロゲートモデル: D-MPNN (Chemprop) + greedy acquisition

探索済み: ライブラリの6%（1%×6）

~94%

計算コスト削減率（対全件ドッキング）

③ ベンチマーク結果（45,000化合物、PIEZO2、Top-1% 回収率）

Vina-MolPAL (1% batch)

75.7%

SILCS-MolPAL (1% batch)

62.4%

Schrödinger AL-Glide

56.0%

Glide-MolPAL (1% batch)

54.3%

プロトコル	Top-1% (1%batch)	R² (1%)	Top-1% (5%batch)
Vina-MolPAL	75.7 ± 1.7%	0.85	99.9%
SILCS-MolPAL	62.4 ± 2.1%	0.78	99.2%
Schrödinger AL	56.0 ± 9.0%	—	89.0%
Glide-MolPAL	54.3 ± 0.9%	0.51	89.9%

④ SILCS-MC の特長と価値

計算コスト: 60秒/化合物（Vina: 1秒）→ ALなしでは非実用的

⑤ 限界点

45,000化合物規模のみ検証 — 数十億規模へのスケーラビリティは未検証

Glide の予測精度低さ（R²=0.51）の原因分析が不十分

仮想ヒット → 実験活性の相関は未評価

⑥ lib/docking 実装提案

UniDockRunner × 能動学習ループの統合

GitHub:

MolPAL: github.com/coleygroup/molpal

Chemprop: github.com/chemprop/chemprop