Improved ADME Prediction by Multitask Pretraining on Predicted Data: Insights from the ASAP-Polaris-OpenADMET Blind Challenge
Dinh Pham, Thai (ホーチミン市薬科大) — J. Chem. Inf. Model. 2025 | DOI: 10.1021/acs.jcim.5c02030
🎯 AZ/Novartisが公開した70万件のサロゲートADMEデータでGINを事前学習し、GIN層を凍結した転移学習で実験データ300件規模から高精度ADME多エンドポイント予測を実現
① 背景と課題

ADME予測の最大の課題はデータ不足。ClogP/TPSA等の物理化学記述子は汎用的だが、GNNの能力を活かすには実験データが少なすぎる(各タスク300〜425件)。一方で企業は大量のサロゲート(予測値)ADMEデータを公開し始めている。

実験データ不足: 各ADMEエンドポイント300〜425件のみ、GNNのファインチューニングが不安定
化学空間の偏り: 抗ウイルス化合物特有の構造、既存GNNの汎化が困難
商用ソフト依存: 最高性能モデルは商用AD予測ツールを要するため再現性低

→ 企業が公開したCC-BY 4.0のサロゲートデータ(予測ADME値)で大規模事前学習 → GIN凍結ファインチューニングで安定した転移学習を実現

サロゲートデータ規模(事前学習) AZ 433K Novartis 274K 707,519件 合計(事前学習) ~350件 実験データ(ファインチューニング) ~2000倍 AZ (CC-BY 4.0, Zenodo公開) Novartis
② 手法: GINnet アーキテクチャ
SMILES 入力 mol_to_graph (RDKit) GIN Conv 層 1 (hidden=256) GIN Conv 層 2 (hidden=256) GIN Conv 層 3 (hidden=256) JK-last → Attentional Graph Pooling Shared FFN(ファインチューニング時学習) AZ logD AZ KSOL AZ HLM Nov ×9 ChEMBL ×3 Llompart ×1 16ヘッドのアンサンブル予測 → 最終ADME予測
② 手法: 凍結ファインチューニング戦略
① 事前学習 707K サロゲートデータ GIN Conv (学習) Shared FFN (学習) Task Heads (学習) 全パラメータを学習 凍結 ② ファインチューニング ~350件 実験ADMEデータ GIN Conv 🔒 Shared FFN Task Heads GIN層を凍結 → FFN+Headのみ更新 GIN層の凍結で少量実験データへの過学習を防止 → 安定した転移学習
③ 本研究で示したこと
  • サロゲートデータ事前学習 + GIN凍結FTでADMEブラインドチャレンジ4位(MAE)・2位タイ(Pearson R)
  • コンペ後最適化でTabPFN(3位)を超えるMAEを達成
  • AZサロゲートデータ(CC-BY 4.0, Zenodo)で即時利用可能
  • 16ヘッドアンサンブルが最高性能(AZ×3+Nov×9+ChEMBL×3+Llompart×1)
GitHub公開
LongHung-Pham/pADME — PyTorch Geometric実装、事前学習済みモデル付属
④ 主な結果 (a) コンペ順位と手法比較
ASAP-Polaris-OpenADMET コンペ成績 1位 商用ソフト A 2位 商用ソフト B 3位 TabPFN(AP12+frag) 4位 GINnet (本手法) 5位 その他 MAE: 4位 Pearson R: 2位タイ コンペ後最適化でTabPFN(3位)を超えるMAEを達成
事前学習データ件数ライセンスエンドポイント
AstraZeneca (Zenodo)433,813CC-BY 4.0LogD / KSOL / HLM CLint
Novartis (ChEMBL/ZINC)273,706混合16エンドポイント
合計707,51919エンドポイント
④ 主な結果 (b) プロパティクリフ解析

類似構造(Tanimoto≥0.8)で大きな活性差(log₁₀差≥2)を持つ分子ペアを特定(Activity/Property Cliff):

プロパティクリフの概念図 類似構造 分子 A HLM: 低安定 Tc≥0.8 類似構造 分子 B HLM: 高安定 Δlog₁₀≥2 (100倍差) クリフ解析で予測困難な化学空間を特定 → 優先的な実験設計に活用
④ 主な結果 (c) アンサンブル効果
ヘッド数とMAE の関係(LogD近似) 1 4 8 16 ヘッド数(アンサンブル) MAE → Best 16ヘッドが最良

AZ(×3)+Novartis(×9)+ChEMBL(×3)+Llompart(×1)の16ヘッドで関連ヘッドをアンサンブル平均。

④ 主な結果 (d) 公開モデルの活用
即時利用可
LongHung-Pham/pADME — 事前学習済みモデル + コード
利用形態内容
推論のみ事前学習済みモデルでSMILES→ADME予測(実験データ不要)
GIN凍結FT自社実験データ(≥50件)でFFN+Headのみ追加学習
フルFT大規模in-houseデータで全層再学習

AZサロゲートデータ: Zenodo CC-BY 4.0で公開中。即座に事前学習に利用可能。

⑤ テイクホームメッセージ
🏭 公開サロゲートデータを活用
AZ/Novartisが公開した70万件のCC-BY予測ADMEデータで事前学習。in-house実験データなしで即時利用可能な高性能モデルを実現。
🧊 GIN凍結で安定した転移学習
GIN層を凍結してFFN+Headのみ更新。少量実験データ(~350件)への過学習を防ぎ、安定したADME予測を実現。
🎯 16ヘッドアンサンブルが最高性能
データソース別に独立したタスクヘッドを設け、関連ヘッドをアンサンブル平均。商用ソフト不使用でコンペ2位タイ達成。
🔓 GitHub + Zenodo で完全公開
PyTorch Geometric実装のGINnet + 事前学習済みモデル。lib/dockingへの統合が即時可能。
ケムインフォマティクスパイプラインへの適用
適用先ユースケース期待効果
lib/dockingUniDockヒットへのHLM/MLM/LogD/KSOL/MDR1予測フィルターADME多エンドポイント同時評価
lib/molgenMolgenYamlスコアラーとして複合ADMEスコア最適化ADMT駆動分子生成
本研究のインパクト
  • 公開サロゲートデータ × GNN事前学習という再現可能な大規模ADME予測パラダイム
  • GIN凍結FTで数十件の社内実験データからでも安定した予測器を構築可能
  • GitHub全公開でlib/docking統合のハードルが極めて低い