ADME予測の最大の課題はデータ不足。ClogP/TPSA等の物理化学記述子は汎用的だが、GNNの能力を活かすには実験データが少なすぎる(各タスク300〜425件)。一方で企業は大量のサロゲート(予測値)ADMEデータを公開し始めている。
→ 企業が公開したCC-BY 4.0のサロゲートデータ(予測ADME値)で大規模事前学習 → GIN凍結ファインチューニングで安定した転移学習を実現
| 事前学習データ | 件数 | ライセンス | エンドポイント |
|---|---|---|---|
| AstraZeneca (Zenodo) | 433,813 | CC-BY 4.0 | LogD / KSOL / HLM CLint |
| Novartis (ChEMBL/ZINC) | 273,706 | 混合 | 16エンドポイント |
| 合計 | 707,519 | 19エンドポイント |
類似構造(Tanimoto≥0.8)で大きな活性差(log₁₀差≥2)を持つ分子ペアを特定(Activity/Property Cliff):
AZ(×3)+Novartis(×9)+ChEMBL(×3)+Llompart(×1)の16ヘッドで関連ヘッドをアンサンブル平均。
| 利用形態 | 内容 |
|---|---|
| 推論のみ | 事前学習済みモデルでSMILES→ADME予測(実験データ不要) |
| GIN凍結FT | 自社実験データ(≥50件)でFFN+Headのみ追加学習 |
| フルFT | 大規模in-houseデータで全層再学習 |
AZサロゲートデータ: Zenodo CC-BY 4.0で公開中。即座に事前学習に利用可能。
| 適用先 | ユースケース | 期待効果 |
|---|---|---|
| lib/docking | UniDockヒットへのHLM/MLM/LogD/KSOL/MDR1予測フィルター | ADME多エンドポイント同時評価 |
| lib/molgen | MolgenYamlスコアラーとして複合ADMEスコア最適化 | ADMT駆動分子生成 |