Docking of Millions: Accelerating a Million-Scale Virtual Screening Using Deep Learning
DOI: 10.1093/bib/bbag128  |  Briefings in Bioinformatics 27, bbag128 (2026)  |  Category: Machine Learning  |  Ha, Lee, Ko, Shin et al. (Arontier / Seoul National Univ.)
AK-Score2精密GNN×V-Dock反復学習のDoMで5M化合物VSをフルスクリーニング12%の時間で完了。上位100件の89%回収・DDR1 IC50 788 nMのヒット実証。Brief Bioinform 2026。 #VirtualScreening #DeepLearning
1. 背景と課題
超大規模ライブラリ(数百万〜数十億化合物)に対するバーチャルスクリーニング(VS)は、創薬リードの起点として急速に重要性を増している。 DOCK37やGlideによる全件ドッキングは数十億規模では計算コストが現実的でなく、Deep Docking/ORCAなどMLサロゲート手法が 台頭してきた。しかし既存サロゲートはドッキングスコアそのものを近似対象とするため、スコアリング精度の天井に縛られ、 真の結合親和性との乖離が発生しやすい。精度と速度の両立が依然として未解決課題である。
Gap: 高速サロゲート(Deep Docking等)の近似精度 vs. 高精度GNN(AK-Score2等)の計算コスト — このトレードオフを解消する反復学習スキームが不在。
5,000,000
本研究で実スクリーニングしたライブラリ規模(化合物数)
6 ターゲット
DDR1 / c-kit / ASK1 / NSD1 / CREBBP / PDE5
2. 手法の概要 (DoMアーキテクチャ)
5M Compound Library ↓ Fast docking pose generation V-Dock surrogate score (all 5M) ↓ Top N% selected AK-Score2 (precise GNN oracle) ↓ Re-label V-Dock training set Iterative re-training of V-Dock loop Top hits → wet-lab IC50 assay

AK-Score2(高精度GNN)を教師、V-Dock(高速近似モデル)を生徒として反復学習。 各ラウンドで上位N%だけを精密評価しV-Dockを更新することで、計算コストを指数関数的に削減しつつ精度を漸増させる。

3. 本研究で示したこと
  • 5M化合物VSをフル時間の12%(平均319時間)で完了
  • 上位100件の89%を全件ドッキングと一致して回収
  • DDR1で実験的IC50 788 nMヒットを取得
  • ASK1で実験的IC50 1.96 μMヒットを取得
  • 6ターゲットで反復学習スキームの汎用性を検証
  • AK-Score2 GNN を高精度オラクルとして実用化
4a. 計算時間: フルスクリーニング比
CPU hours (5M compounds) 2700 1800 900 0 ~2658 h Full screen (100%) 319 h DoM 12% CPU hours
→ 約8.3倍の高速化
4b. 上位回収率の検証
反復学習収束後、DoMが提示した上位100化合物と、5M全件をAK-Score2で網羅的に評価したリファレンス上位100件を比較。 平均回収率は89%に達し、最も難しいターゲットでも80%台を保った。これは「全件ドッキング+精密GNN」が事実上の ground truthとなる設定での比較で、サロゲート→精密の二段ステップが top-N hits をほぼ漏らさないことを示す。
89%
Top-100 Recall vs. exhaustive AK-Score2
6 / 6
テスト全ターゲットで convergence を達成

反復回数は概ね数ラウンドで収束。各ラウンドで V-Dock の予測誤差(MAE/Spearman)が単調改善することも報告されている。

4c. ウェット実験ヒット (10 μM阻害率)
Hit rate >50% inhibition @10 μM 35 25 15 5 0 31 tested 4 DDR1 12.9% hit 27 tested 1 ASK1 3.7% hit tested active Compounds
最低IC50: DDR1 788 nM / ASK1 1.96 μM
4d. 限界点と残る議論
  • V-Dock近似精度は AK-Score2 訓練データ(PDBbind)の品質に強く依存
  • PDBbindと乖離するターゲット族(膜タンパク質等)では誤差増大の可能性
  • ドッキングスコア vs. 実験的結合親和性の本質的相関の壁は本手法でも未解決
  • 商用プラットフォーム(Arontier)組込みでありOSS実装は未公開
  • 反復回数・top-N閾値などのハイパー調整指針は限定的
類似OSS: Deep Docking (github.com/jbardal/Deep-Docking), ORCA等が出発点として参照可能。
5. テイクホームメッセージ
精密モデルを「教師」に使う
AK-Score2のような高精度GNNを oracle に固定し、軽量モデルを反復蒸留すると、精度を犠牲にせず計算量を1桁削減できる。
5M規模が現実解になった
319時間(平均)で5M化合物のスクリーニングが可能になり、make-on-demandライブラリの大半が射程圏に入った。
Top-100 89%回収は実用十分
合成可能性チェックで自然脱落する候補を考慮すれば、回収率89%は ground-truth相当と扱ってよい水準。
ヒット率が示す pipeline 妥当性
DDR1 12.9%・ASK1 3.7%(>50%@10 μM)はランダム選択を大きく上回り、DoMが真の濃縮に寄与している証拠。
ケムインフォマティクス応用
応用先モジュール具体的ユースケース期待効果
lib/docking (UniDockRunner)V-Dock型 fast filter → UniDock 精密スコアリングの2段階パイプライン5M〜数十億規模が射程内に
lib/docking + lib/molgenEnamine REAL / WuXi GalaXi に対する DoM 反復学習スクリーニング仮想ヒット濃縮 ×8倍

既存 UniDockRunner に oracle/surrogate のインターフェースを追加し、AK-Score2 風の GNN(MOLPROP_ScoringNet 等)を差し込み可能にすれば、本論文のスキームを移植できる。

本研究のインパクト
  • Million-scale VS が現実的計算コスト(数百CPU時間)で実行可能になり、創薬初期探索の標準ワークフローを更新
  • 「精密GNN教師 × 軽量サロゲート生徒」の反復蒸留パターンが、ドッキング以外(FEP・ADMET等)へも展開しうる汎用フレーム
  • DDR1 IC50 788 nM のヒット実例により「ML-VS は実験的にも当たる」ことを再確認、産業応用ハードルを下げた