Practically Significant Method Comparison Protocols for Machine Learning in Small Molecule Drug Discovery
J. Chem. Inf. Model. | 2025年9月 | DOI: 10.1021/acs.jcim.5c01609 | Category: machine_learning
創薬ML比較を「実務的に有意」にする4本柱: Scaffold split / BEDROC・EF / Wilcoxon検定 / Bootstrap CI。製薬大手合同ガイドライン。
① 背景と課題

創薬MLでは「Random split + RMSE/AUC」評価が広く流通しているが、(i) 化合物が Scaffold で偏り、(ii) ヒット率が 1% 未満の極端な不均衡、(iii) 実験ノイズが大きい、(iv) 早期認識(top-k 濃縮)が実務上重要、という小分子創薬データ特性に対し誤った楽観評価を生む。

Random splitは Scaffold が train/test に共有されるため見かけの RMSE が Scaffold split の 1/2〜1/3 に縮み、過楽観。
不均衡データで ROC-AUC を見ると、上位 1% で実際にヒットが多い手法と少ない手法が同スコアになる現象が起こる。

→ 製薬企業実務に整合する比較プロトコルを学術発表でも標準化したい。

② 4本柱プロトコル
  • 分割: Butina (Tanimoto 0.4) または Murcko Scaffold split を必須化、Random split は原則禁止
  • 指標: VS は BEDROC (α=20.0)EF@1% / EF@5%、回帰は Spearman ρ / Kendall τ、不均衡分類は PR-AUC
  • 有意性: モデル間性能分布を Wilcoxon 符号順位検定 で比較し p<0.05 を要求
  • 不確実性: Bootstrap n≧1000 で 95% CI、CI が重なる差は「改善」と称さない
プロトコル概略フロー Scaffold Split BEDROC α=20 / EF@1% Wilcoxon 符号順位 p<0.05 Bootstrap CI n≥1000, 95% ↓ 「実務に意味のある差」だけが残る Practically Significant 統計有意 ∧ 効果量大 ∧ 再現性確認
③ 本研究で示したこと
  • ChEMBL/MoleculeNet で Random vs Scaffold で見かけ RMSE が 2〜3 倍 過楽観に見える
  • ヒット率 ≤1% の VS では BEDROC が実務スクリーニング成功率と高相関、AUC は鈍感
  • 既存論文の「大きな改善」報告のうち Wilcoxon で有意でない ケースを複数同定
  • Python アノテーション付き Jupyter notebook を Supporting Information で公開
  • 製薬大手 (AstraZeneca, Genentech, Novartis, Pfizer 等) 共同ガイドラインとして発表
④ (a) Random vs Scaffold split の見かけ性能差
RMSE: Random split は 2〜3× 過楽観 0 1.0 2.0 3.0 RMSE (相対) 1.0 2.5× ChEMBL 1.0 3.0× MoleculeNet Random split Scaffold split
Random split は train/test 間で同 Scaffold が共有され、テストが事実上 in-distribution に近づく。Scaffold split で報告すべき。
④ (b) BEDROC vs ROC-AUC: 早期認識感度
ヒット率 ≤1% で AUC は飽和、BEDROC は弁別 0.0 0.4 0.7 1.0 モデル A → B → C (ヒット率 0.5%) 0.83 0.85 0.86 0.31 0.55 0.74 ROC-AUC BEDROC α=20
推奨指標 (ヒット率 ≤1% VS)
BEDROC α=20.0 / EF@1%
④ (c) Bootstrap 95% CI による有意差判定
CI 重なり = 「改善」と称さない 0.60 0.70 0.80 0.90 PR-AUC (n=1000 bootstraps) Baseline 0.71 [0.66, 0.76] Method A 0.74 [0.69, 0.79] CI重なり Method B 0.83 [0.80, 0.86] 分離 A は Baseline と CI 重なり → 「改善」と報告すべきでない
④ (d) 用途別の推奨指標マトリクス
タスク推奨指標非推奨
VS (ヒット率 ≤1%)BEDROC α=20
EF@1% / EF@5%
ROC-AUC
不均衡分類PR-AUC
MCC
Accuracy
ROC-AUC
回帰 (順位重視)Spearman ρ
Kendall τ
R² 単独
回帰 (絶対値)RMSE + Bootstrap CIRMSE 点推定のみ
分割Butina (T=0.4)
Murcko Scaffold
Random split
比較検定Wilcoxon 符号順位
(N seed/fold)
単一実行平均比較
Bootstrap n≧1000 を全指標に併用し 95% CI を必ず併記。
⑤ テイクホームメッセージ
「見かけ性能詐欺」を防ぐ
Random split での発表値は Scaffold split に直すと RMSE が 2〜3 倍に劣化する。論文・社内決裁の両方で過剰投資を生んできた構造的バイアスを排除する。
VS では BEDROC を第一指標に
ヒット率 ≤1% の現実条件で ROC-AUC は飽和し弁別力を失う。BEDROC α=20.0 と EF@1% は実スクリーニング成功率と高相関で、創薬実務に直結する。
差は CI と Wilcoxon で守る
単一 split での「+0.02 改善」は 95% Bootstrap CI 内なら主張不可。複数 seed × 複数 fold で Wilcoxon 検定を回し、p<0.05 を満たす差だけを「実務有意」と呼ぶ。
製薬大手共同のデファクト
AstraZeneca / Genentech / Novartis / Pfizer らが共同で支持しているため、論文査読・社内 ML レビューの両方で「このプロトコル準拠か」を問う基準として機能しはじめる。
応用 (lib/docking · lib/molgen)
  • lib/docking: SBVS 評価器の標準指標を BEDROC α=20 / EF@1% に切替、ProLIF/UniDock 出力に組込
  • lib/molgen: 生成モデル評価を Scaffold split で再評価し過楽観排除
  • 共通: Bootstrap CI ヘルパ (n=1000) と Wilcoxon ラッパを lib/eval/ に新設
  • RDKit rdkit.ML.Scoring の BEDROC を直接呼び出して既存パイプラインに最小変更で統合可能
インパクト
  • 製薬実務に整合した ML 比較プロトコルが学術発表でも通用する基準として確立しうる
  • 「+0.02 AUC 改善」型の弱主張論文が査読段階でフィルタされ、研究の S/N が改善
  • 社内 ML レビューでベンチマーク成績の信頼性が定量化され、創薬 AI の意思決定品質が向上