ADvisor: Applicability Domain Optimization for Molecular Predictive Modeling
J. Chem. Inf. Model. 2025, 65, 11583 — Piazza, Poles, Bononi, Granchi, Di Stefano, Poli, Macchia, Tuccinardi (Pisa)
🎯 54,600種の類似度関数探索でQSARモデルの
適用範囲(AD)を自動最適化するオープンソースツール
① 背景と問題意識

QSARモデルが規制・創薬で使われるには「予測が信頼できる範囲(AD)」の定義が必須だが、実際には固定パラメータ・独自ライブラリ依存のAD手法が形式的に使われることが多く、科学的妥当性が担保されていない。

既存規制受入AD手法: 固定パラメータ・独自ライブラリ依存で再現困難
既存比較研究: 理論的か特定エンドポイント限定で実用ツールがない
標準化されたAD評価フレームワークが存在しない

→ 6ファミリーのAD手法を系統ベンチマーク + 最適AD戦略を自動選択するADvisorを開発

② ADvisor の設計
  • 6ファミリーのAD手法を網羅的に評価
  • 回帰・分類双方に対応(汎用フレームワーク)
  • 完全オープンソース(RDKit + Scikit-learn + SciPy)
  • 規制準拠(OECDガイドライン対応)
MLモデル訓練 → 複数AD手法評価 → MAE差でランキング → 最適AD選択

二段階評価: in-domain MAE vs out-of-domain MAEの差で有効性を定量化

③ 使用データセット(OECD準拠)
エンドポイント例Nガイドライン
沸点1172OECD 103
融点1494OECD 102
水溶性1670OECD 105
分配係数 (logP)1278OECD 117
引火点1005EU A.9
密度1776OECD 109
蒸気圧 (20℃)1146OECD 104

信頼性スコア=1・OECD/EU認定ガイドライン準拠のデータのみを厳選

④ 類似度関数最適化
54,600
類似度式の組み合わせ
65種
二値類似度指標
3種
FP種 (Morgan/RDKit/PubChem)

S(1,2) = W₁×sim_FP + W₂×sim_CD + W₃×sim_RD + W₄×sim_FG

Read-Across R²でランキング → エンドポイント別最適式を選択

最適式はエンドポイントごとに異なる → 一律適用は非推奨
⑤ MLモデル設定
アルゴリズム主要最適化パラメータ
Random Forestmax_features, n_estimators
SVMkernel, C
KNNn_neighbors (1-15), weights
Gaussian Processkernel
MLPlayer_size, activation, lr

4特徴量×5アルゴリズム=20モデル組み合わせ / 5-fold CV最適化

⑥ 結論と限界
  • 最適化済み類似度ベースADが最多エンドポイントで推奨手法
  • VenomPred 2.0分類モデルでも汎用性確認
単一AD手法が全状況で最良というわけではない — データ適応選択が必須
13エンドポイントはすべて物理化学特性 — 生物活性予測QSARは未評価
54,600式の探索は高コスト
⑦ パイプライン統合方針
  • lib/docking後処理
    ドッキングスコアQSARへのAD評価統合
  • lib/fep信頼度フラグ
    MMGBSAモデル外挿に警告を付加
  • lib/molgenフィルター
    AD内化合物を優先生成するスコアラー
⑧ Impact / 公開情報
  • QSAR予測の信頼度評価を標準化・自動化
  • 規制準拠QSARモデル開発を支援
  • 完全オープンソース実装(独自ライブラリ非依存)
  • 依存: RDKit, Scikit-learn, SciPy, Measurenary
  • 対応: 回帰・分類両タスク
  • GitHub: SI参照