ChemSTEP: 巨大ライブラリドッキングを「透明に」加速する化学空間反復探索

DOI: 10.26434/chemrxiv.15001061 Category: computational_chemistry Authors: Mailhot, Holland, Paris, Radchenko, Moroz, Shoichet, Irwin (UCSF / U.Montréal / Enamine / Chemspace) Published: 2026/03 ChemRxiv
🎯 Goal: trillion 級 make-on-demand ライブラリを ML サロゲート不要・解釈可能なまま 5% 以下のドッキングで攻略する

1背景と課題

Enamine REAL や ChemSpace の make-on-demand ライブラリは 13B〜trillion 分子 規模に拡大し、全数ドッキングは事実上不可能。

Enamine REAL Space (本論文 fwd 検証)1.32 × 10⁹ 分子
回顧的ベンチマーク総量6 × 10⁹ 分子 / 8 標的

既存の優先化手法は ML サロゲート(Deep Docking, ORCA)に依存:

  • 問題1新標的ごとに学習が必要で ブラックボックス化
  • 問題2異アルゴリズム間の 公平な性能比較指標が欠如
  • 問題3fingerprint と異なる学習特徴で 解釈性が失われる

2手法の概要

ChemSTEP = Chemical Space Traversal and Exploration Procedure。構造類似性のみで化学空間を反復探索する 3 段階パイプライン。

① Diversity Seed 代表分子を抽出 → 初期ドッキング ② Beacon Pick 高スコア & 多様な 「灯台」分子を選定 ③ Iter. Expand Tanimoto 類似で 候補追加→再ドック 高スコア分子で beacon を更新 Library 全体 → 5% 未満の実ドッキングで網羅

解釈可能性: 各イテレーションの拡張理由が「ビーコンとの Tanimoto 類似」だけ。ML 学習・GPU 推論を介さない。

3本研究で示したこと

① Beacon-driven 反復探索
多様性ベース起点 → 類似性で外側に膨張させる「化学空間ナビゲーション」を確立。
② Neff (Effective Library Size)
実ドッキング数とスコア分布から「等価フルスクリーニング相当のサイズ」を推定する公平指標を新定義。
③ ML 不要の透明性
サロゲートモデルなし、特徴量も Morgan FP+Tanimoto の単一基準。新標的に即適用可。
④ ライブラリ拡大効果の実証
同 protocol で library を増やすほどヒット率が上がることを 99M → 13B で示した。

4主な結果

aライブラリ規模拡大でヒット率が単調増加 (AmpC fwd)

0% 20 40 60 80 12% 99 M 41% 1.7 B 60% 13.2 B Library size (Enamine REAL Space) Hit rate
同一プロトコルで library を拡大するほど hit rate が 12 → 41 → 60% に上昇。"bigger library is better"。

bドッキング 5% 未満で上位スコアの 75%+ を回収

0% 25 50 75 100 0 2 5 10 20% random 75% recovery (5%, 80%) % library docked % top hits recovered ChemSTEP
AmpC fwd 検証: 0.5% ドッキングで上位 241 件中 80% を捕捉。8 標的 × 6 B 回顧でも 5%未満で 75%+ 回収

cChemSTEP の段階的絞り込み (1.32 B → 上位 241)

REAL Space 1.32 × 10⁹ Diverse seed dock ~10⁵ Beacons + similar ≤ 0.5% Top 241 hits 100% ~0.008% ≤ 0.5% ≪ 0.001%
1.32 B → わずか 0.5% 計算で 241 件の高スコアヒット を確定。Neff は実ドッキング数の数百倍に達する。

d先行手法との特性比較

指標 Deep Docking ORCA ChemSTEP
ML 学習必要必要不要
解釈可能性高 (Tanimoto)
新標的への即適用×
公平比較指標なしなしNeff 提案
必要 docking 量~1%~3%≤ 0.5–5%
透明性 + 学習レス + 公平な Neff 指標が ChemSTEP の三本柱。lib/docking/UniDockRunner への移植価値が高い。

5テイクホーム

① Library is king. 13 B 規模で hit rate が 12% → 60% に上昇。化学空間を広げる効果は依然として大きい。
② Transparent > Black-box. Tanimoto + Beacon の単純設計でも DL サロゲートに匹敵し、新標的に即適用できる。
③ Neff で評価を統一. 異アルゴリズム比較を可能にする「等価フルライブラリサイズ」概念を必ず引用すべき。
④ Pipeline 移植. lib/docking/UniDockRunner に 3 段階階層 (seed → beacon → expand) と Neff 評価を実装するのが優先課題。