Rapid Traversal of Ultralarge Chemical Space using Machine Learning Guided Docking Screens

DOI: 10.1021/acs.jcim.3c00784 Category: computational_chemistry Authors: Luttens et al., Carlsson lab (Uppsala) — JCIM 2024 / ChemRxiv 2023 🎯 ゴール: 数十億規模の化合物ライブラリを 3〜5% のドッキング計算だけで網羅的にスクリーニング

1背景と課題

Make-on-demand ライブラリは現在 300 億超の化合物に達し、 全化合物を直接ドッキングするのは計算コスト的に不可能。
  • 典型的なドッキングヒット率は ≤ 0.1% の極不均衡データ。
  • 従来の ML サロゲート(Graff 2021, Gentile 2020 等)は 数億規模に未対応、しかも 誤発見率の統計的保証がない
  • 「どの程度のヒット見落としを許容するか」をユーザーが定量制御できる枠組みが欠如。

2手法の概要

2 段階 ML 誘導ドッキングワークフロー
  • Stage 1: 全ライブラリの 0.1〜1%(典型 100 万化合物)を Glide / AutoDock-GPU で実ドッキング。
  • 上位 5% を陽性ラベル、残りを陰性として ECFP4 + CatBoost / DNN / Transformer 分類器を学習。
  • Stage 2: 残り化合物に対し Conformal Prediction (CP) で「ドッキング推奨」を分類。
  • CP は有意水準 α 以下で誤発見率を統計的に保証し、不均衡データでも機能。

3本研究で示したこと

  • 0.2 億化合物ライブラリでトップスコア化合物の ≥ 90% を、全体の 3〜5% のドッキング計算のみで再現。
  • 3 種の分類器のうち CatBoost が「速度 × 精度」最適バランス。
  • 8 標的タンパク質で手法を検証し、汎用性を実証。
  • 最終的に 3.5 億超の超大規模ライブラリへ実適用、ベースラインより 有意に良いドッキングスコア群を取得。
  • 使用者が「許容誤発見率 α」を設定でき、統計的に解釈可能なスクリーニング。

4主な結果(a / b / c / d)

a計算コスト削減 vs Top-Hit Recall
0 25 50 75 100 1% ~1 62 3% ~3 88 5% ~5 92 10% 10 96 CP+CatBoost Random baseline Top-hit Recall (%) Docking Budget (% of library)

0.2 億規模で 3〜5% の予算でトップヒットの ≥ 90% を回収。ランダム選択比 ~18 倍のヒット濃縮。

b3.5 億ライブラリへのスケーリング Funnel
350,000,000 化合物 (full library) ~3,500,000 を Stage-1 docking (1%) CP retained subset ~14M (4%) Top hits ≥ 90% recovered 100% ~1% ~4% target

3.5 億化合物のうち実ドッキングしたのは Stage-1 + 推奨抽出で計 ~5%。残り 95% は CP により安全に除外。

c分類器比較(精度 × スループット)
0.70 0.78 0.85 0.91 0.96 10⁵ 10⁶ 10⁷ 10⁸ Transformer 0.91 DNN 0.92 CatBoost ★ 0.94 Throughput (mol/h, log) Top-5% Recall

3 分類器のうち CatBoost が最高 recall(≈0.94)と最大スループット(>10⁷/h)を両立し、本ワークフロー標準として採用。

dCP誘導ドッキングのアーキテクチャ
Library 350M cmpds Stage 1: Dock 3.5M (1%) Glide / AD-GPU Train CatBoost ECFP4 → top-5% label + calibration set Conformal Prediction α=0.10 → keep ~4% Stage 2: Dock retained subset Top hits (≥90% recovered, 8 targets) Total docking ≈ 5% of library

Stage1 で軽くドッキング → 上位ラベルで CatBoost を学習 → CP がエラー率 α 以下で残し → Stage2 で本ドッキング。 α を下げれば回収率↑、計算コスト↑。

5テイクホームメッセージ

SCALE ML サロゲート + CP の組合せにより、3.5 億超のメイクオンデマンドライブラリを実用時間内に網羅探索可能。Stage1 + Stage2 合計でも ~5% のドッキング工数で済む。
RECIPE 本ワークフローの推奨レシピ: ECFP4 + CatBoost + Conformal Prediction。 DNN・Transformer も同等精度だがスループットで CatBoost が圧勝。 α=0.05〜0.1 でトップ 90% 以上を回収。
CAVEAT 本手法はあくまで ドッキングスコアの再現高速化。 ドッキング自体の精度問題(活性との低相関)は別問題。 初期サンプルが化学空間を覆わない場合は active learning 拡張が必要。 実装は Carlsson lab GitHub に公開。