Synthon-Based Strategies Exploiting Molecular Similarity and Protein-Ligand Interactions for Efficient Screening of Ultra-Large Chemical Libraries
Pharmacelera | J. Chem. Inf. Model. 2025 | DOI: 10.1021/acs.jcim.5c00222
🎯 EnamineREAL(70 億規模)に対し、シントン単位で評価する exaScreen(LBVS)と exaDock(SBVS)で全列挙比 10⁵ 倍の高速化を実現する。
① 背景と課題

EnamineREAL 2024 版は約 70 億化合物。全列挙ドッキングは O(N×R×k) で N が爆発し、現実的計算資源では困難。先行シントン手法 (SASS, V-SYNTHES) もあるが幾何整合性に弱点が残る。

SASS/SpaceGrow は薬効団点や円柱軸ベースで、リンカーが逆向きの場合に誤アライメント
V-SYNTHES のシントン単独ドッキングは結合ポーズ不安定で誤選択を生む

→ Hyphar 四重極(LBVS)と「シントン+残余フラグメント」拘束ドッキング(SBVS)で精度を担保。

② 手法の概要: exaScreen (LBVS)
  • 基準化合物を RECAP で2分割、結合原子記録
  • MST IEF/PCM で原子 logP 寄与(Hyphar)算出
  • 結合原子中心の四重極テンソル Q 主軸でアライメント
  • 疎水/親水場 + HBD/HBA 類似度で順位付け
  • 反応ルールに従いシントン対を列挙
② 手法の概要: exaDock (SBVS)
  • 基準 X 線ポーズを RECAP で断片化
  • 「シントン + 基準残余」のハイブリッド化合物を構築
  • Glide SP 拘束ドッキングで断片部を固定
  • 反応成分ごとに上位シントンを選別
  • 組み合わせ列挙して再スコア

計算は線形 O(n)、11B 化合物で全列挙比最大 5000 倍高速化

③ 本研究で示したこと
  • 11 ターゲット中 10 で PharmScreen 全列挙と同等以上のエンリッチメント
  • X 線自己アライメント 78/80 件 (97.5%) で RMSD < 2 Å
  • ペアワイズアライメント 102/112 件 (91.1%) で RMSD < 2 Å
  • EnamineREAL 規模で全列挙比 10⁵ 倍の理論的高速化
④ 主な結果 (a) アライメント精度
RMSD < 2 Å rate (%) 97.5% self-align 78/80 91.1% pairwise 102/112
④ 主な結果 (b) 計算量スケーリング
cost vs library size (log scale) 10⁹ 10⁵ 10⁰ 10⁶ 10⁹ 10¹¹ enumerate (N) exaScreen (n×R×k) 10⁵×
④ 主な結果 (c) ターゲット網羅性
ターゲットexaScreenPharmScreen
FGFR1★高同等
AA2AR★高同等
11ターゲット10/11 ≥同等baseline
ABL1

ABL1 はシントンライブラリの網羅性が原因

④ 主な結果 (d) exaDock SBVS
5000× 11B 化合物で全列挙比の高速化
O(n) シントン数に線形比例

ハイブリッド化合物拘束ドッキングでポケット幾何を直接利用。複数ターゲットで Glide 全列挙と競合する回収率。

⑤ テイクホームメッセージ
Hyphar 四重極が鍵
結合原子中心の Q テンソル主軸でアライメントすることで逆向きリンカー誤選択を回避。
ハイブリッド拘束ドッキング
シントン単独でなく「残余」を付けることでポケット形状を反映。
n×R×k スケーリング
EnamineREAL 70B でも実行可能な数桁高速化。
3D バイオアクティブコンフォメーション必須
X 線ポーズが利用できる前提で精度を担保。
lib/docking への適用ポイント

UniDockRunner にシントン拘束ドッキングモードを追加。RECAP 断片化+ハイブリッド構築のヘルパを提供。

  • RECAP/Murcko 断片化API
  • Hyphar 風記述子 (RDKit Crippen 代替) も検討
本研究のインパクト
  • 70B 級超大規模 VS のリアルワールド戦略を提示
  • シントン LBVS の精度を Hyphar Q で底上げ
  • SBVS の幾何整合性をハイブリッド拘束で改善