Descriptor-First Approach for ADMET Prediction in the PolarisHub Antiviral Challenge
Chupakhin, DiBella (Simulations Plus) — J. Chem. Inf. Model. 2025 | DOI: 10.1021/acs.jcim.5c02094
🎯 ADMET Predictor v12(AP12)既存モデル出力をメタ特徴量とし、TabPFN基盤モデルで300〜400件規模の小データからCatBoostを最大60%上回るADMET多エンドポイント予測を達成
① 背景と課題

PolarisHub 抗ウイルスADMETチャレンジは HLM/MLM代謝安定性・MDR1-MDCKII透過性・LogD・KSOL の5エンドポイントを対象とし、301〜425化合物という極小訓練データで予測精度を競う。

小規模データ(n≈350)での過学習: 深層学習モデルが安定しない
化学空間バイアス: 抗ウイルス化合物特有の構造に対応できる記述子が必要
ハイパーパラメータ探索コスト: 少量データでのチューニングは不安定・高コスト

→ 既存の商用QSARモデル出力(AP12)をメタ特徴量として活用し、Prior-Data Fitted Network(TabPFN)でハイパーパラメータ探索なしに高精度を達成

PolarisHub チャレンジ規模
訓練データ: 301〜425件 ブラインドテスト: 126件 対象エンドポイント(5種) HLM MLM MDR1 LogD KSOL コンペ3位(MAE最小化)
② 手法の概要: 特徴量パイプライン
SMILES 入力 AP12 318 features RDKit frag radius=3 bits SyGMa 代謝 SMARTS Concat (統合特徴量) TabPFN (5-fold CV) HLM MLM LogD KSOL MDR1
② 手法の概要: TabPFN モデル
TabPFN = Prior-Data Fitted Network 合成タブラーデータ上で事前学習済みTransformer Train → Test を 1 forward pass で処理 ハイパーパラメータ 探索不要(zero-config) 小規模データ (n≈350) で CatBoost より安定 5-fold CV → アンサンブル中央値で最終予測 各フォールドの予測を median aggregation
③ 本研究で示したこと
  • AP12メタ特徴量 + TabPFN でCatBoost基線に対して全エンドポイントで最大60% MAE削減
  • LogD: 0.414→0.165(60%削減)が最大の改善、MDR1: 0.381→0.245(36%削減)
  • 記述子を段階的追加(AP12→+fragment→+metabolic)で系統的な性能向上を確認
  • コンペ後最適化でコンペ1位(GNN系)を除きすべての手法を上回ることを実証
3位
PolarisHub 抗ウイルスADMETチャレンジ最終順位(商用ソフトのみ使用の非商用実装が3位)
④ 主な結果 (a) エンドポイント別 MAE 比較(CatBoost vs TabPFN best)
0.1 0.2 0.3 0.4 MAE -60% LogD -35% MDR1 -42% HLM -40% MLM -41% KSOL CatBoost TabPFN (best)

赤数字: TabPFN(AP12+frag+metab)によるCatBoost基線からのMAE削減率。評価は対数変換後MAE。

④ 主な結果 (b) SHAP 特徴重要度
SHAP 特徴重要度(HLM) CYP3A4_CLint 0.85 HLM_CLint (AP12) 0.71 logP (AP12) 0.52 MW 0.38 TPSA 0.31

CYP3A4代謝クリアランスがHLM予測の最重要特徴(SHAP解析)。AP12メタ特徴量が主要な情報源。

④ 主な結果 (c) 段階的改善
LogD MAE の段階的改善 CatBoost(AP12) MAE=0.414 TabPFN(AP12) MAE=0.310 ▼25% TabPFN(+frag) MAE=0.220 ▼47% TabPFN(+frag+metab) MAE=0.165 ▼60% 代謝パターン特徴の追加が最大の改善に寄与
④ 主な結果 (d) コンペ成績
手法MAE ランク
GNN (1位)🥇 1st
ML + QM (2位)🥈 2nd
TabPFN(AP12+frag+metab)🥉 3位
その他 (NN系)4位以下

コンペ後の最適化で1位(GNN)を除く全手法を上回るMAEを達成。商用ソフト不使用で実現。

Zenodo 公開
doi.org/10.5281/zenodo.17049552 — 全コード・モデル公開済み
⑤ テイクホームメッセージ
📦 記述子ファースト戦略
既存QSARモデル(AP12)出力をそのままメタ特徴量として活用。専用GNN設計や大規模データ収集なしに高精度を実現。
TabPFN の威力
合成データ事前学習済みTransformerはハイパーパラメータ不要。小規模ADMET(n≈350)でCatBoostを一貫して上回る。
🔬 SyGMa代謝特徴が鍵
代謝パターンSMARTS特徴の追加でLogD MAEを60%削減。CYP3A4_CLintがHLM最重要特徴(SHAP)。
🔓 Zenodo でコード全公開
RDKit+tabpfn_extensionsのみの依存で再実装可能。in-house少量ADMET実験データへの即時適用が可能。
ケムインフォマティクスパイプラインへの適用
適用先ユースケース期待効果
lib/dockingUniDockヒットのADMET多エンドポイント予測フィルターHLM/LogD/KSOL同時評価
lib/molgen生成分子のADMETスコアラーとしてTabPFN統合ADMET多様性制御
lib/dockingSHAPで重要ADMET記述子を特定→設計指針モデル解釈性向上

tabpfn / tabpfn_extensions はPyPI公開。RDKit記述子でAP12代替実装が可能。

本研究のインパクト
  • 専門的QSARツール出力を基盤モデルへの入力に転用する「メタ学習」パラダイムを実証
  • 数百件の実験ADMETデータがあれば即座に高精度モデルを構築可能
  • Zenodo全公開により再現性・実用性が保証され、lib/docking統合の障壁が低い