Rethinking Ligand Efficiency: Normalization Pitfalls, Uncertainty & State-Invariant Metrics
Hongtao Zhao (AstraZeneca) · ACS Med. Chem. Lett. 2025 · DOI: 10.1021/acsmedchemlett.5c00652
🎯 LE(リガンド効率)のサイズバイアス・標準状態依存を数学的に解体し、物理的に正当なxLEを提案。フラグメントからリードへの最適化判断を刷新する。
① LEの3つの根本的問題
❶ サイズバイアス:LE = −ΔG/N はNと単調減少 → 断片が大分子より「高効率」に見える数学的アーティファクト
❷ 標準状態依存:既存のサイズ非依存バリアント(LLEAT, BEI等)も標準濃度の選択で順位が変わり、物理的に不変ではない
❸ 不確実性の非均一性:σ_LE ∝ 1/N のため断片のLE比較は大分子の3倍以上不安定(N=10 vs N=30)

→ 48%のフラグメント-リードペアでLEは最適化「失敗」と誤判定 ← これは物理ではなく数学の問題

② xLE — 新しい効率指標
xLE = (ΔG + T·Strans) / N^0.2 × 10 + 0.5 T·Strans = −0.9·ln(Mw) − 5.8 [kcal/mol] α = 0.2 (PDBbind 13,904複合体で最適化)
翻訳エントロピー補正で標準状態依存を除去
N^0.2正規化でmedia(xLE) vs Nの勾配≈0を実現
0.55
xLE中央値(PDBbind全体)= 判別ベンチマーク
③ 検証結果(PDBbind + 175フラグメント進行例)
指標LE低下(誤判定)中央値超過(リード)
xLE(提案)<2%78%
LE(従来)48%63%

PDBbind 13,904複合体でxLE中央値はサイズ全域でほぼ定数、四分位幅も均一。LE は N と強く相関して単調低下。

  • フラグメント→リード進行のほぼ全例でxLEが向上
  • リード化合物の78%がxLE中央値0.55超(LE基準63%)
④ 限界点と残る課題
α, a, b はPDBbindで経験的に決定 → 特定ターゲットクラスでは再調整が必要
翻訳エントロピー近似(log Mw)は厳密な量子統計ではない
σ_ΔG の下限 kT はあくまで熱揺らぎの理論的最低値 — 実験誤差は通常これより大

実用上は kT/N を不確実性の最小見積もりとして統計的判断に使う

⑤ 計算化学パイプラインへの応用提案
  • lib/docking: UniDockRunner 出力にxLEポストフィルターを追加(閾値 0.55)
  • lib/molgen: MolgenYaml スコアラーにxLEを組み込み、de novo分子の効率評価
  • σ_LE = kT/N による信頼区間付き効率比較(断片スクリーニング向け)
  • ターゲットクラス別xLE中央値テーブルで閾値を精緻化
Docking ΔG → xLE計算 → 0.55フィルター → 効率優先ヒットリスト
⑥ 実装メモ

分子設計への新知見

  • 「フラグメントは高効率」はLEの数学的アーティファクト — 物理的根拠なし
  • xLE ≥ 0.55 のリード化合物はプロジェクト継続に十分な効率を持つ
  • xLE が一貫してターゲットクラス中央値を下回る場合はスキャフォールド転換のサイン

実装難易度: 低(数式をそのままコード化)

必要情報: ΔG_dock (kcal/mol), 重原子数N, 分子量Mw

RDKit取得例:

from rdkit import Chem; from rdkit.Chem import Descriptors mol = Chem.MolFromSmiles(smi) N = mol.GetNumHeavyAtoms() Mw = Descriptors.MolWt(mol)

公開実装なし — 論文の式から直接実装可能