ChemSTEP: 巨大ライブラリドッキングを「透明に」加速する化学空間反復探索

DOI: 10.26434/chemrxiv.15001061 Category: computational_chemistry Authors: Mailhot, Holland, Paris, Radchenko, Moroz, Shoichet, Irwin (UCSF / U.Montréal / Enamine / Chemspace) Published: 2026/03 ChemRxiv

🎯 Goal: trillion 級 make-on-demand ライブラリを ML サロゲート不要・解釈可能なまま 5% 以下のドッキングで攻略する

1背景と課題

Enamine REAL や ChemSpace の make-on-demand ライブラリは 13B〜trillion 分子 規模に拡大し、全数ドッキングは事実上不可能。

Enamine REAL Space (本論文 fwd 検証)1.32 × 10⁹ 分子

回顧的ベンチマーク総量6 × 10⁹ 分子 / 8 標的

既存の優先化手法は ML サロゲート（Deep Docking, ORCA）に依存:

問題1新標的ごとに学習が必要で ブラックボックス化
問題2異アルゴリズム間の 公平な性能比較指標が欠如
問題3fingerprint と異なる学習特徴で 解釈性が失われる

2手法の概要

ChemSTEP = Chemical Space Traversal and Exploration Procedure。構造類似性のみで化学空間を反復探索する 3 段階パイプライン。

解釈可能性: 各イテレーションの拡張理由が「ビーコンとの Tanimoto 類似」だけ。ML 学習・GPU 推論を介さない。

3本研究で示したこと

① Beacon-driven 反復探索
多様性ベース起点 → 類似性で外側に膨張させる「化学空間ナビゲーション」を確立。

② Neff (Effective Library Size)
実ドッキング数とスコア分布から「等価フルスクリーニング相当のサイズ」を推定する公平指標を新定義。

③ ML 不要の透明性
サロゲートモデルなし、特徴量も Morgan FP+Tanimoto の単一基準。新標的に即適用可。

④ ライブラリ拡大効果の実証
同 protocol で library を増やすほどヒット率が上がることを 99M → 13B で示した。

4主な結果

aライブラリ規模拡大でヒット率が単調増加 (AmpC fwd)

同一プロトコルで library を拡大するほど hit rate が 12 → 41 → 60% に上昇。"bigger library is better"。

bドッキング 5% 未満で上位スコアの 75%+ を回収

AmpC fwd 検証: 0.5% ドッキングで上位 241 件中 80% を捕捉。8 標的 × 6 B 回顧でも 5%未満で 75%+ 回収。

cChemSTEP の段階的絞り込み (1.32 B → 上位 241)

1.32 B → わずか 0.5% 計算で 241 件の高スコアヒット を確定。Neff は実ドッキング数の数百倍に達する。

d先行手法との特性比較

指標	Deep Docking	ORCA	ChemSTEP
ML 学習	必要	必要	不要
解釈可能性	低	中	高 (Tanimoto)
新標的への即適用	×	△	○
公平比較指標	なし	なし	Neff 提案
必要 docking 量	~1%	~3%	≤ 0.5–5%

透明性 + 学習レス + 公平な Neff 指標が ChemSTEP の三本柱。lib/docking/UniDockRunner への移植価値が高い。

5テイクホーム

① Library is king. 13 B 規模で hit rate が 12% → 60% に上昇。化学空間を広げる効果は依然として大きい。

② Transparent > Black-box. Tanimoto + Beacon の単純設計でも DL サロゲートに匹敵し、新標的に即適用できる。

③ Neff で評価を統一. 異アルゴリズム比較を可能にする「等価フルライブラリサイズ」概念を必ず引用すべき。

④ Pipeline 移植. lib/docking/UniDockRunner に 3 段階階層 (seed → beacon → expand) と Neff 評価を実装するのが優先課題。