Quantitative Model of VS Performance

A Quantitative Model of Structure-Based Virtual Screening Performance

Moesgaard, Shoichet & Mailhot · ChemRxiv 2025 · DOI: 10.26434/chemrxiv-2025-rn75p

🎯 ドッキングスコアと実験pKiの二変量正規分布モデルでVSヒット率を定量予測。スコアリング精度ρのわずかな改善が大きな効果をもたらすことを理論的に示す。

① モデルの概要（6パラメータ）

P(hit | pProp, hit_def) = (1-fA) × Φ( (conditional_μpKi - hit_def) / σpKi ) + fA × artifact_term pProp = -log10(rank / N_library) ρ: ドッキングスコア vs 実験pKiの相関係数

基本3パラメータ: μpKi（平均活性）、σpKi（活性分布幅）、ρ（スコア-pKi相関）

アーティファクト補正3パラメータ: fA（頻度）、μA（スコア位置）、σA（分散）

② 実験データとフィット結果（2,544化合物）

ターゲット	ρ（相関）	μpKi	fA（アーティファクト）
AmpC β-lactamase (1,521)	-0.68	-1.08	1.2×10⁻⁵
Sigma2受容体 (481)	-0.62	3.30	1.3×10⁻⁵
ドパミンD4受容体 (549)	-0.41	0.99	2.4×10⁻⁵

3ターゲット全ての実験ヒット率曲線を95%CI内で再現。pProp=5-7付近のアーティファクト誘発ヒット率低下も説明。

③ モデルから得られる3つの予測

スコアリング精度の価値: ρを-0.5→-0.6に改善するだけでヒット率と親和性が大幅改善。等価な結果を小さいライブラリで達成可能に
ライブラリ前処理の重要性: 電荷・疎水性フィルターで内在的ヒット率向上 → ライブラリ拡大と同等の効果。テラスケールライブラリで特に有効
アーティファクトの危険性: ライブラリ拡大とともにアーティファクトが支配的に → pPropスキャンでピーク位置を特定し実験設計に組み込む

1兆分子ライブラリにD4で35億、AmpCで1,800万の真のヒット — だが現行精度では大半に届かない

④ pProp スキャンの実践的意義

スクリーニングの「スコア景観」をスキャンすることでモデルを構築。実験すべきpProp範囲の最適化に使える。

ヒット率がピークを示すpPropを特定 → 最適実験範囲を決定

アーティファクト誘発の低下を観測 → スコアカットオフ上限を設定

ピーク後の高スコア分子には要注意（偽陽性リスク大）

実装: UniDockRunnerの結果後処理として pProp変換とヒット率曲線プロットを追加

⑤ 限界点と注意事項

正規分布仮定 — 実際のスコア分布は複雑で非対称の場合あり

3ターゲットから導出 — 異なるターゲットクラスへの一般化は未検証

アーティファクトのメカニズム不明 — 各キャンペーンで実験的同定が必要

ρはスコア-pKiの相関だが、実験で直接測定困難（モデルフィッティングで推定）

⑥ lib/docking 実装提案（VS性能評価ダッシュボード）

実装すべき機能

UniDockRunner出力スコア → pProp変換の自動計算
bivariate normal + artifact モデルのフィット（scipy遺伝的アルゴリズム）
ヒット率曲線の可視化 + 95%CI
スコアリング精度ρのパラメータ推定（少数実験点から）

実装優先度: High（理論的基盤、実装コスト低）

必要データ: ドッキングスコア + 少数実験Ki値（20-30点）

出力: ρの推定値、最適pProp範囲、期待ヒット数

スコア景観スキャン → 次ラウンドの実験設計最適化に直結

Shoichet Lab: shoichetlab.ucsf.edu