創薬プロジェクトでは ADME(吸収・分布・代謝・排泄)特性を化合物合成前に予測することがコスト削減に不可欠。だが学習データ設計には二つの流儀があり、どちらを選ぶかでチームによって判断が割れていた。
→ Novartis 社内 ADME データを総動員し、112 プロジェクト規模で決着をつけることが本研究の動機。
膜透過性から hERG, BBB まで 全10アッセイ で global の MAE がローカルを下回り、勝敗は完全な一方通行。
data shift が大きいプロジェクト(≒ 化学空間が社内平均から離れている系列)ほど、ローカルが過学習し global との差が拡大。
| 説明変数 | p-value | 寄与 |
|---|---|---|
| 学習データサイズ | n.s. | ほぼ無し |
| 構造多様性(FP-based) | n.s. | ほぼ無し |
| data shift | significant | 主要因 |
アーキテクチャ依存ではなく データ設計の問題。木系から DNN まで同じ序列が再現される頑健な現象。
UniDockRunner 後段の階層フィルタ: Hit 化合物を global ADME モデル(膜透過性・代謝安定性・hERG・溶解度)で順位付けし、上位だけ MMGBSAEngine に流す。
MolgenYaml スコアラー統合: 生成器の reward に global ADME スコアを加え、生成分子の data shift 影響を抑制。
shift モニタ: 新規プロジェクト着手時に化合物分布と社内 global 訓練分布の距離を計算し、ローカル/グローバル切替判断を自動化。