創薬MLでは「Random split + RMSE/AUC」評価が広く流通しているが、(i) 化合物が Scaffold で偏り、(ii) ヒット率が 1% 未満の極端な不均衡、(iii) 実験ノイズが大きい、(iv) 早期認識(top-k 濃縮)が実務上重要、という小分子創薬データ特性に対し誤った楽観評価を生む。
→ 製薬企業実務に整合する比較プロトコルを学術発表でも標準化したい。
| タスク | 推奨指標 | 非推奨 |
|---|---|---|
| VS (ヒット率 ≤1%) | BEDROC α=20 EF@1% / EF@5% | ROC-AUC |
| 不均衡分類 | PR-AUC MCC | Accuracy ROC-AUC |
| 回帰 (順位重視) | Spearman ρ Kendall τ | R² 単独 |
| 回帰 (絶対値) | RMSE + Bootstrap CI | RMSE 点推定のみ |
| 分割 | Butina (T=0.4) Murcko Scaffold | Random split |
| 比較検定 | Wilcoxon 符号順位 (N seed/fold) | 単一実行平均比較 |
lib/eval/ に新設rdkit.ML.Scoring の BEDROC を直接呼び出して既存パイプラインに最小変更で統合可能