GINnet Multitask ADME Predictor

Improved ADME Prediction by Multitask Pretraining on Predicted Data: Insights from the ASAP-Polaris-OpenADMET Blind Challenge

Dinh Pham, Thai (ホーチミン市薬科大) — J. Chem. Inf. Model. 2025 | DOI: 10.1021/acs.jcim.5c02030

🎯 AZ/Novartisが公開した70万件のサロゲートADMEデータでGINを事前学習し、GIN層を凍結した転移学習で実験データ300件規模から高精度ADME多エンドポイント予測を実現

① 背景と課題

ADME予測の最大の課題はデータ不足。ClogP/TPSA等の物理化学記述子は汎用的だが、GNNの能力を活かすには実験データが少なすぎる（各タスク300〜425件）。一方で企業は大量のサロゲート（予測値）ADMEデータを公開し始めている。

実験データ不足: 各ADMEエンドポイント300〜425件のみ、GNNのファインチューニングが不安定

化学空間の偏り: 抗ウイルス化合物特有の構造、既存GNNの汎化が困難

商用ソフト依存: 最高性能モデルは商用AD予測ツールを要するため再現性低

→ 企業が公開したCC-BY 4.0のサロゲートデータ（予測ADME値）で大規模事前学習 → GIN凍結ファインチューニングで安定した転移学習を実現

② 手法: GINnet アーキテクチャ

② 手法: 凍結ファインチューニング戦略

③ 本研究で示したこと

GitHub公開

LongHung-Pham/pADME — PyTorch Geometric実装、事前学習済みモデル付属

④ 主な結果 (a) コンペ順位と手法比較

事前学習データ	件数	ライセンス	エンドポイント
AstraZeneca (Zenodo)	433,813	CC-BY 4.0	LogD / KSOL / HLM CLint
Novartis (ChEMBL/ZINC)	273,706	混合	16エンドポイント
合計	707,519		19エンドポイント

④ 主な結果 (b) プロパティクリフ解析

類似構造（Tanimoto≥0.8）で大きな活性差（log₁₀差≥2）を持つ分子ペアを特定（Activity/Property Cliff）:

④ 主な結果 (c) アンサンブル効果

AZ(×3)+Novartis(×9)+ChEMBL(×3)+Llompart(×1)の16ヘッドで関連ヘッドをアンサンブル平均。

④ 主な結果 (d) 公開モデルの活用

即時利用可

LongHung-Pham/pADME — 事前学習済みモデル + コード

利用形態	内容
推論のみ	事前学習済みモデルでSMILES→ADME予測（実験データ不要）
GIN凍結FT	自社実験データ(≥50件)でFFN+Headのみ追加学習
フルFT	大規模in-houseデータで全層再学習

AZサロゲートデータ: Zenodo CC-BY 4.0で公開中。即座に事前学習に利用可能。

⑤ テイクホームメッセージ

🏭 公開サロゲートデータを活用
AZ/Novartisが公開した70万件のCC-BY予測ADMEデータで事前学習。in-house実験データなしで即時利用可能な高性能モデルを実現。

🧊 GIN凍結で安定した転移学習
GIN層を凍結してFFN+Headのみ更新。少量実験データ（~350件）への過学習を防ぎ、安定したADME予測を実現。

🎯 16ヘッドアンサンブルが最高性能
データソース別に独立したタスクヘッドを設け、関連ヘッドをアンサンブル平均。商用ソフト不使用でコンペ2位タイ達成。

🔓 GitHub + Zenodo で完全公開
PyTorch Geometric実装のGINnet + 事前学習済みモデル。lib/dockingへの統合が即時可能。

ケムインフォマティクスパイプラインへの適用

適用先	ユースケース	期待効果
lib/docking	UniDockヒットへのHLM/MLM/LogD/KSOL/MDR1予測フィルター	ADME多エンドポイント同時評価
lib/molgen	MolgenYamlスコアラーとして複合ADMEスコア最適化	ADMT駆動分子生成

本研究のインパクト