Systematic Evaluation of Local and Global Machine Learning Models for the Prediction of ADME Properties
Molecular Pharmaceutics | 2023 | DOI: 10.1021/acs.molpharmaceut.2c00962
Novartis 内 10 ADMEアッセイ x 112 プロジェクトを横断比較し「グローバルモデルが常にローカルを上回る」を定量実証。差の要因は data shift と特定。
背景と課題:ローカル vs グローバル QSPR の長年の論争

創薬プロジェクトでは ADME(吸収・分布・代謝・排泄)特性を化合物合成前に予測することがコスト削減に不可欠。だが学習データ設計には二つの流儀があり、どちらを選ぶかでチームによって判断が割れていた。

ローカル派: 「同じ化学シリーズに特化したモデルの方が、その系列に対して高精度になる」という直感的仮説。プロジェクト内化合物のみで学習。
グローバル派: 「全社データで一括学習した大規模モデルのほうが汎化する」という統計的論拠。社内全アッセイデータで学習。
どちらが優位か、特に 産業実データ × 多プロジェクト での系統的検証は前例がなかった。

→ Novartis 社内 ADME データを総動員し、112 プロジェクト規模で決着をつけることが本研究の動機。

手法の概要:二系統モデルを同条件で対比
  • 10 種の ADME アッセイ(膜透過性・代謝安定性・溶解度・タンパク結合 等)を対象
  • 各プロジェクトで local(プロジェクト内化合物のみ)と global(社内全化合物)を訓練
  • 共通アルゴリズム: RF / GBM / DNN を用い、アルゴリズム差で結論が左右されないことを確認
  • 評価指標: MAE・RMSE・Pearson r
  • 診断分析として 3 因子(学習データサイズ / 構造多様性 / data shift)の重回帰でローカル劣位の原因を特定
本研究で示したこと
  • 10/10 アッセイすべてで global が local より低 MAE / 低 RMSE
  • 112 プロジェクトの大半で global ≥ local(系統的優位)
  • 差の説明因子は data shift のみ統計的に有意
  • 学習データサイズ・構造多様性は差をほぼ説明しない
  • 結論は RF / GBM / DNN いずれでも再現
(a) 10 ADME アッセイでのモデル勝敗
アッセイ別 MAE 比較(概念図) MAE Perm Metab Sol PPB hERG LogD CL Caco F% BBB Local Global 10/10 で global 優位

膜透過性から hERG, BBB まで 全10アッセイ で global の MAE がローカルを下回り、勝敗は完全な一方通行。

(b) data shift と性能差の関係
112 プロジェクトの散布 data shift(global vs project 分布差)→ MAE_local − MAE_global low high 0 有意な正相関 差ほぼゼロ global 大幅優位

data shift が大きいプロジェクト(≒ 化学空間が社内平均から離れている系列)ほど、ローカルが過学習し global との差が拡大。

(c) 重回帰:差を説明する因子は何か
説明変数p-value寄与
学習データサイズn.s.ほぼ無し
構造多様性(FP-based)n.s.ほぼ無し
data shiftsignificant主要因
解釈
「local がデータ少だから負ける」のではなく、local が局所的化学空間に過適合し、未踏領域への外挿に失敗することが本質。global は多様な分布を平均化して頑健になる。
(d) RF / GBM / DNN いずれでも結論は同じ
アルゴリズム × モデル種別の Pearson r Pearson r 0 0.5 1.0 Random Forest GBM DNN Local Global 3/3 で global ≥ local

アーキテクチャ依存ではなく データ設計の問題。木系から DNN まで同じ序列が再現される頑健な現象。

テイクホームメッセージ
グローバル一択の指針
ADME 予測ではプロジェクト切替時にローカル再学習する手間より、社内統合 global QSPR の運用に投資すべき。
data shift こそが鍵
性能差の原因はデータ量でも多様性でもなく分布のずれ。新規プロジェクトでは shift 量を測りリスクを可視化できる。
アルゴリズム非依存の結論
RF・GBM・DNN いずれでも順位が変わらず、ML エンジニアリングの選択を簡素化できる。
ローカルが活きる例外条件
shift がほぼゼロな均質シリーズなら local も互角で計算コストが軽く、ハイブリッド運用の余地もある。
応用補足:ケムインフォマティクスへの組み込み

UniDockRunner 後段の階層フィルタ: Hit 化合物を global ADME モデル(膜透過性・代謝安定性・hERG・溶解度)で順位付けし、上位だけ MMGBSAEngine に流す。

MolgenYaml スコアラー統合: 生成器の reward に global ADME スコアを加え、生成分子の data shift 影響を抑制。

shift モニタ: 新規プロジェクト着手時に化合物分布と社内 global 訓練分布の距離を計算し、ローカル/グローバル切替判断を自動化。

インパクト
  • 112 プロジェクト規模の産業データで「グローバル優位」を初めて定量化
  • ローカル過学習の真因を data shift と特定し、QSPR 設計指針を一新
  • 創薬企業の ADME 予測インフラを「プロジェクトごと再学習」から「社内統合モデル」へ転換する根拠を提供