Practically Significant Method Comparison Protocols for ML in Small Molecule Drug Discovery

Practically Significant Method Comparison Protocols for Machine Learning in Small Molecule Drug Discovery

J. Chem. Inf. Model. | 2025年9月 | DOI: 10.1021/acs.jcim.5c01609 | Category: machine_learning

創薬ML比較を「実務的に有意」にする4本柱: Scaffold split / BEDROC・EF / Wilcoxon検定 / Bootstrap CI。製薬大手合同ガイドライン。

① 背景と課題

創薬MLでは「Random split + RMSE/AUC」評価が広く流通しているが、(i) 化合物が Scaffold で偏り、(ii) ヒット率が 1% 未満の極端な不均衡、(iii) 実験ノイズが大きい、(iv) 早期認識（top-k 濃縮）が実務上重要、という小分子創薬データ特性に対し誤った楽観評価を生む。

Random splitは Scaffold が train/test に共有されるため見かけの RMSE が Scaffold split の 1/2〜1/3 に縮み、過楽観。

不均衡データで ROC-AUC を見ると、上位 1% で実際にヒットが多い手法と少ない手法が同スコアになる現象が起こる。

→ 製薬企業実務に整合する比較プロトコルを学術発表でも標準化したい。

② 4本柱プロトコル

分割: Butina (Tanimoto 0.4) または Murcko Scaffold split を必須化、Random split は原則禁止
指標: VS は BEDROC (α=20.0) と EF@1% / EF@5%、回帰は Spearman ρ / Kendall τ、不均衡分類は PR-AUC
有意性: モデル間性能分布を Wilcoxon 符号順位検定 で比較し p<0.05 を要求
不確実性: Bootstrap n≧1000 で 95% CI、CI が重なる差は「改善」と称さない

③ 本研究で示したこと

ChEMBL/MoleculeNet で Random vs Scaffold で見かけ RMSE が 2〜3 倍 過楽観に見える
ヒット率 ≤1% の VS では BEDROC が実務スクリーニング成功率と高相関、AUC は鈍感
既存論文の「大きな改善」報告のうち Wilcoxon で有意でない ケースを複数同定
Python アノテーション付き Jupyter notebook を Supporting Information で公開
製薬大手 (AstraZeneca, Genentech, Novartis, Pfizer 等) 共同ガイドラインとして発表

④ (a) Random vs Scaffold split の見かけ性能差

Random split は train/test 間で同 Scaffold が共有され、テストが事実上 in-distribution に近づく。Scaffold split で報告すべき。

④ (b) BEDROC vs ROC-AUC: 早期認識感度

推奨指標 (ヒット率 ≤1% VS)

BEDROC α=20.0 / EF@1%

④ (c) Bootstrap 95% CI による有意差判定

④ (d) 用途別の推奨指標マトリクス

タスク	推奨指標	非推奨
VS (ヒット率 ≤1%)	BEDROC α=20 EF@1% / EF@5%	ROC-AUC
不均衡分類	PR-AUC MCC	Accuracy ROC-AUC
回帰 (順位重視)	Spearman ρ Kendall τ	R² 単独
回帰 (絶対値)	RMSE + Bootstrap CI	RMSE 点推定のみ
分割	Butina (T=0.4) Murcko Scaffold	Random split
比較検定	Wilcoxon 符号順位 (N seed/fold)	単一実行平均比較

Bootstrap n≧1000 を全指標に併用し 95% CI を必ず併記。

⑤ テイクホームメッセージ

「見かけ性能詐欺」を防ぐ
Random split での発表値は Scaffold split に直すと RMSE が 2〜3 倍に劣化する。論文・社内決裁の両方で過剰投資を生んできた構造的バイアスを排除する。

VS では BEDROC を第一指標に
ヒット率 ≤1% の現実条件で ROC-AUC は飽和し弁別力を失う。BEDROC α=20.0 と EF@1% は実スクリーニング成功率と高相関で、創薬実務に直結する。

差は CI と Wilcoxon で守る
単一 split での「+0.02 改善」は 95% Bootstrap CI 内なら主張不可。複数 seed × 複数 fold で Wilcoxon 検定を回し、p<0.05 を満たす差だけを「実務有意」と呼ぶ。

製薬大手共同のデファクト
AstraZeneca / Genentech / Novartis / Pfizer らが共同で支持しているため、論文査読・社内 ML レビューの両方で「このプロトコル準拠か」を問う基準として機能しはじめる。

応用 (lib/docking · lib/molgen)

lib/docking: SBVS 評価器の標準指標を BEDROC α=20 / EF@1% に切替、ProLIF/UniDock 出力に組込
lib/molgen: 生成モデル評価を Scaffold split で再評価し過楽観排除
共通: Bootstrap CI ヘルパ (n=1000) と Wilcoxon ラッパを lib/eval/ に新設
RDKit rdkit.ML.Scoring の BEDROC を直接呼び出して既存パイプラインに最小変更で統合可能

インパクト

製薬実務に整合した ML 比較プロトコルが学術発表でも通用する基準として確立しうる
「+0.02 AUC 改善」型の弱主張論文が査読段階でフィルタされ、研究の S/N が改善
社内 ML レビューでベンチマーク成績の信頼性が定量化され、創薬 AI の意思決定品質が向上