QSARモデルが規制・創薬で使われるには「予測が信頼できる範囲(AD)」の定義が必須だが、実際には固定パラメータ・独自ライブラリ依存のAD手法が形式的に使われることが多く、科学的妥当性が担保されていない。
→ 6ファミリーのAD手法を系統ベンチマーク + 最適AD戦略を自動選択するADvisorを開発
二段階評価: in-domain MAE vs out-of-domain MAEの差で有効性を定量化
| エンドポイント例 | N | ガイドライン |
|---|---|---|
| 沸点 | 1172 | OECD 103 |
| 融点 | 1494 | OECD 102 |
| 水溶性 | 1670 | OECD 105 |
| 分配係数 (logP) | 1278 | OECD 117 |
| 引火点 | 1005 | EU A.9 |
| 密度 | 1776 | OECD 109 |
| 蒸気圧 (20℃) | 1146 | OECD 104 |
信頼性スコア=1・OECD/EU認定ガイドライン準拠のデータのみを厳選
S(1,2) = W₁×sim_FP + W₂×sim_CD + W₃×sim_RD + W₄×sim_FG
Read-Across R²でランキング → エンドポイント別最適式を選択
| アルゴリズム | 主要最適化パラメータ |
|---|---|
| Random Forest | max_features, n_estimators |
| SVM | kernel, C |
| KNN | n_neighbors (1-15), weights |
| Gaussian Process | kernel |
| MLP | layer_size, activation, lr |
4特徴量×5アルゴリズム=20モデル組み合わせ / 5-fold CV最適化