A Quantitative Model of Structure-Based Virtual Screening Performance
Moesgaard, Shoichet & Mailhot · ChemRxiv 2025 · DOI: 10.26434/chemrxiv-2025-rn75p
🎯 ドッキングスコアと実験pKiの二変量正規分布モデルでVSヒット率を定量予測。スコアリング精度ρのわずかな改善が大きな効果をもたらすことを理論的に示す。
① モデルの概要(6パラメータ)
P(hit | pProp, hit_def) = (1-fA) × Φ( (conditional_μpKi - hit_def) / σpKi ) + fA × artifact_term pProp = -log10(rank / N_library) ρ: ドッキングスコア vs 実験pKiの相関係数

基本3パラメータ: μpKi(平均活性)、σpKi(活性分布幅)、ρ(スコア-pKi相関)

アーティファクト補正3パラメータ: fA(頻度)、μA(スコア位置)、σA(分散)

pProp=2
= トップ1%
pProp=3
= トップ0.1%
pProp=5
= トップ0.001%
② 実験データとフィット結果(2,544化合物)
ターゲットρ(相関)μpKifA(アーティファクト)
AmpC β-lactamase (1,521)-0.68-1.081.2×10⁻⁵
Sigma2受容体 (481)-0.623.301.3×10⁻⁵
ドパミンD4受容体 (549)-0.410.992.4×10⁻⁵

3ターゲット全ての実験ヒット率曲線を95%CI内で再現。pProp=5-7付近のアーティファクト誘発ヒット率低下も説明。

③ モデルから得られる3つの予測
  • スコアリング精度の価値: ρを-0.5→-0.6に改善するだけでヒット率と親和性が大幅改善。等価な結果を小さいライブラリで達成可能に
  • ライブラリ前処理の重要性: 電荷・疎水性フィルターで内在的ヒット率向上 → ライブラリ拡大と同等の効果。テラスケールライブラリで特に有効
  • アーティファクトの危険性: ライブラリ拡大とともにアーティファクトが支配的に → pPropスキャンでピーク位置を特定し実験設計に組み込む
1兆分子ライブラリにD4で35億、AmpCで1,800万の真のヒット — だが現行精度では大半に届かない
④ pProp スキャンの実践的意義

スクリーニングの「スコア景観」をスキャンすることでモデルを構築。実験すべきpProp範囲の最適化に使える。

ヒット率がピークを示すpPropを特定 → 最適実験範囲を決定
アーティファクト誘発の低下を観測 → スコアカットオフ上限を設定
ピーク後の高スコア分子には要注意(偽陽性リスク大)

実装: UniDockRunnerの結果後処理として pProp変換とヒット率曲線プロットを追加

⑤ 限界点と注意事項
正規分布仮定 — 実際のスコア分布は複雑で非対称の場合あり
3ターゲットから導出 — 異なるターゲットクラスへの一般化は未検証
アーティファクトのメカニズム不明 — 各キャンペーンで実験的同定が必要
ρはスコア-pKiの相関だが、実験で直接測定困難(モデルフィッティングで推定)
⑥ lib/docking 実装提案(VS性能評価ダッシュボード)

実装すべき機能

  • UniDockRunner出力スコア → pProp変換の自動計算
  • bivariate normal + artifact モデルのフィット(scipy遺伝的アルゴリズム)
  • ヒット率曲線の可視化 + 95%CI
  • スコアリング精度ρのパラメータ推定(少数実験点から)

実装優先度: High(理論的基盤、実装コスト低)

必要データ: ドッキングスコア + 少数実験Ki値(20-30点)

出力: ρの推定値、最適pProp範囲、期待ヒット数

スコア景観スキャン → 次ラウンドの実験設計最適化に直結

Shoichet Lab: shoichetlab.ucsf.edu