TabPFN Descriptor-First ADMET Predictor

Descriptor-First Approach for ADMET Prediction in the PolarisHub Antiviral Challenge

Chupakhin, DiBella (Simulations Plus) — J. Chem. Inf. Model. 2025 | DOI: 10.1021/acs.jcim.5c02094

🎯 ADMET Predictor v12（AP12）既存モデル出力をメタ特徴量とし、TabPFN基盤モデルで300〜400件規模の小データからCatBoostを最大60%上回るADMET多エンドポイント予測を達成

① 背景と課題

PolarisHub 抗ウイルスADMETチャレンジは HLM/MLM代謝安定性・MDR1-MDCKII透過性・LogD・KSOL の5エンドポイントを対象とし、301〜425化合物という極小訓練データで予測精度を競う。

小規模データ（n≈350）での過学習: 深層学習モデルが安定しない

化学空間バイアス: 抗ウイルス化合物特有の構造に対応できる記述子が必要

ハイパーパラメータ探索コスト: 少量データでのチューニングは不安定・高コスト

→ 既存の商用QSARモデル出力（AP12）をメタ特徴量として活用し、Prior-Data Fitted Network（TabPFN）でハイパーパラメータ探索なしに高精度を達成

PolarisHub チャレンジ規模

② 手法の概要: 特徴量パイプライン

② 手法の概要: TabPFN モデル

③ 本研究で示したこと

3位

PolarisHub 抗ウイルスADMETチャレンジ最終順位（商用ソフトのみ使用の非商用実装が3位）

④ 主な結果 (a) エンドポイント別 MAE 比較（CatBoost vs TabPFN best）

赤数字: TabPFN(AP12+frag+metab)によるCatBoost基線からのMAE削減率。評価は対数変換後MAE。

④ 主な結果 (b) SHAP 特徴重要度

CYP3A4代謝クリアランスがHLM予測の最重要特徴（SHAP解析）。AP12メタ特徴量が主要な情報源。

④ 主な結果 (c) 段階的改善

④ 主な結果 (d) コンペ成績

コンペ後の最適化で1位(GNN)を除く全手法を上回るMAEを達成。商用ソフト不使用で実現。

Zenodo 公開

doi.org/10.5281/zenodo.17049552 — 全コード・モデル公開済み

⑤ テイクホームメッセージ

📦 記述子ファースト戦略
既存QSARモデル（AP12）出力をそのままメタ特徴量として活用。専用GNN設計や大規模データ収集なしに高精度を実現。

⚡ TabPFN の威力
合成データ事前学習済みTransformerはハイパーパラメータ不要。小規模ADMET（n≈350）でCatBoostを一貫して上回る。

🔬 SyGMa代謝特徴が鍵
代謝パターンSMARTS特徴の追加でLogD MAEを60%削減。CYP3A4_CLintがHLM最重要特徴（SHAP）。

🔓 Zenodo でコード全公開
RDKit+tabpfn_extensionsのみの依存で再実装可能。in-house少量ADMET実験データへの即時適用が可能。

ケムインフォマティクスパイプラインへの適用

適用先	ユースケース	期待効果
lib/docking	UniDockヒットのADMET多エンドポイント予測フィルター	HLM/LogD/KSOL同時評価
lib/molgen	生成分子のADMETスコアラーとしてTabPFN統合	ADMET多様性制御
lib/docking	SHAPで重要ADMET記述子を特定→設計指針	モデル解釈性向上

tabpfn / tabpfn_extensions はPyPI公開。RDKit記述子でAP12代替実装が可能。

本研究のインパクト