1背景と課題
Enamine REAL や ChemSpace の make-on-demand ライブラリは 13B〜trillion 分子 規模に拡大し、全数ドッキングは事実上不可能。
Enamine REAL Space (本論文 fwd 検証)1.32 × 10⁹ 分子
回顧的ベンチマーク総量6 × 10⁹ 分子 / 8 標的
既存の優先化手法は ML サロゲート(Deep Docking, ORCA)に依存:
- 問題1新標的ごとに学習が必要で ブラックボックス化
- 問題2異アルゴリズム間の 公平な性能比較指標が欠如
- 問題3fingerprint と異なる学習特徴で 解釈性が失われる
2手法の概要
ChemSTEP = Chemical Space Traversal and Exploration Procedure。構造類似性のみで化学空間を反復探索する 3 段階パイプライン。
解釈可能性: 各イテレーションの拡張理由が「ビーコンとの Tanimoto 類似」だけ。ML 学習・GPU 推論を介さない。
3本研究で示したこと
① Beacon-driven 反復探索
多様性ベース起点 → 類似性で外側に膨張させる「化学空間ナビゲーション」を確立。
② Neff (Effective Library Size)
実ドッキング数とスコア分布から「等価フルスクリーニング相当のサイズ」を推定する公平指標を新定義。
③ ML 不要の透明性
サロゲートモデルなし、特徴量も Morgan FP+Tanimoto の単一基準。新標的に即適用可。
④ ライブラリ拡大効果の実証
同 protocol で library を増やすほどヒット率が上がることを 99M → 13B で示した。
4主な結果
aライブラリ規模拡大でヒット率が単調増加 (AmpC fwd)
同一プロトコルで library を拡大するほど hit rate が 12 → 41 → 60% に上昇。"bigger library is better"。
bドッキング 5% 未満で上位スコアの 75%+ を回収
AmpC fwd 検証: 0.5% ドッキングで上位 241 件中 80% を捕捉。8 標的 × 6 B 回顧でも 5%未満で 75%+ 回収。
cChemSTEP の段階的絞り込み (1.32 B → 上位 241)
1.32 B → わずか 0.5% 計算で 241 件の高スコアヒット を確定。Neff は実ドッキング数の数百倍に達する。
d先行手法との特性比較
| 指標 |
Deep Docking |
ORCA |
ChemSTEP |
| ML 学習 | 必要 | 必要 | 不要 |
| 解釈可能性 | 低 | 中 | 高 (Tanimoto) |
| 新標的への即適用 | × | △ | ○ |
| 公平比較指標 | なし | なし | Neff 提案 |
| 必要 docking 量 | ~1% | ~3% | ≤ 0.5–5% |
透明性 + 学習レス + 公平な Neff 指標が ChemSTEP の三本柱。lib/docking/UniDockRunner への移植価値が高い。
5テイクホーム
① Library is king. 13 B 規模で hit rate が 12% → 60% に上昇。化学空間を広げる効果は依然として大きい。
② Transparent > Black-box. Tanimoto + Beacon の単純設計でも DL サロゲートに匹敵し、新標的に即適用できる。
③ Neff で評価を統一. 異アルゴリズム比較を可能にする「等価フルライブラリサイズ」概念を必ず引用すべき。
④ Pipeline 移植. lib/docking/UniDockRunner に 3 段階階層 (seed → beacon → expand) と Neff 評価を実装するのが優先課題。