Systematic Evaluation of Local and Global ML Models for ADME Prediction

Systematic Evaluation of Local and Global Machine Learning Models for the Prediction of ADME Properties

Molecular Pharmaceutics | 2023 | DOI: 10.1021/acs.molpharmaceut.2c00962

Novartis 内 10 ADMEアッセイ x 112 プロジェクトを横断比較し「グローバルモデルが常にローカルを上回る」を定量実証。差の要因は data shift と特定。

背景と課題：ローカル vs グローバル QSPR の長年の論争

創薬プロジェクトでは ADME（吸収・分布・代謝・排泄）特性を化合物合成前に予測することがコスト削減に不可欠。だが学習データ設計には二つの流儀があり、どちらを選ぶかでチームによって判断が割れていた。

ローカル派: 「同じ化学シリーズに特化したモデルの方が、その系列に対して高精度になる」という直感的仮説。プロジェクト内化合物のみで学習。

グローバル派: 「全社データで一括学習した大規模モデルのほうが汎化する」という統計的論拠。社内全アッセイデータで学習。

どちらが優位か、特に 産業実データ × 多プロジェクト での系統的検証は前例がなかった。

→ Novartis 社内 ADME データを総動員し、112 プロジェクト規模で決着をつけることが本研究の動機。

手法の概要：二系統モデルを同条件で対比

本研究で示したこと

(a) 10 ADME アッセイでのモデル勝敗

膜透過性から hERG, BBB まで 全10アッセイ で global の MAE がローカルを下回り、勝敗は完全な一方通行。

(b) data shift と性能差の関係

data shift が大きいプロジェクト（≒ 化学空間が社内平均から離れている系列）ほど、ローカルが過学習し global との差が拡大。

解釈

「local がデータ少だから負ける」のではなく、local が局所的化学空間に過適合し、未踏領域への外挿に失敗することが本質。global は多様な分布を平均化して頑健になる。

(d) RF / GBM / DNN いずれでも結論は同じ

アーキテクチャ依存ではなく データ設計の問題。木系から DNN まで同じ序列が再現される頑健な現象。

テイクホームメッセージ

グローバル一択の指針
ADME 予測ではプロジェクト切替時にローカル再学習する手間より、社内統合 global QSPR の運用に投資すべき。

data shift こそが鍵
性能差の原因はデータ量でも多様性でもなく分布のずれ。新規プロジェクトでは shift 量を測りリスクを可視化できる。

アルゴリズム非依存の結論
RF・GBM・DNN いずれでも順位が変わらず、ML エンジニアリングの選択を簡素化できる。

ローカルが活きる例外条件
shift がほぼゼロな均質シリーズなら local も互角で計算コストが軽く、ハイブリッド運用の余地もある。

応用補足：ケムインフォマティクスへの組み込み

UniDockRunner 後段の階層フィルタ: Hit 化合物を global ADME モデル（膜透過性・代謝安定性・hERG・溶解度）で順位付けし、上位だけ MMGBSAEngine に流す。

MolgenYaml スコアラー統合: 生成器の reward に global ADME スコアを加え、生成分子の data shift 影響を抑制。

shift モニタ: 新規プロジェクト着手時に化合物分布と社内 global 訓練分布の距離を計算し、ローカル/グローバル切替判断を自動化。

インパクト