ProfhEX — ML-Based Multi-Target Activity Profiling Platform

ProfhEX: ML-Based Multi-Target Activity Profiling & Liability Prediction

J. Chem. Inf. Model. 2025 — Lunghini, Cerchia, Fava, Pisapia, Sacco, Beccari (EXSCALATE/Dompé)

🎯 693ヒトターゲット・969モデルで早期創薬の
オフターゲットリスクを一括評価する無償Webプラットフォーム

① 背景と課題

ML駆動の化合物-ターゲット活性予測は創薬加速の鍵だが、SEA・SwissTargetPrediction等の既存ツールはターゲット数の制限・古いデータ・バッチ非対応・アクセス困難などの問題を抱えていた。初代ProfhEXも46リアビリティターゲットに限定されていた。

既存ツール: ターゲット数が少なく、データが古く、1件ずつしか処理できない

初代ProfhEX: 46ターゲットのみ（リアビリティ特化）

構造ベース手法は専門知識が必要でハイスループット評価に不向き

→ 5M+生物活性データ × 969モデルの大規模拡張版で問題を一挙解決

② プラットフォーム概要

SMILES入力 → Morgan FP → ML回帰 → インタラクティブレポート

③ 全体性能指標（969モデル平均）

0.68

平均 R²（SD=0.10）

0.83

平均 r（SD=0.06）

0.67

平均 RMSE log units

12.4

平均 EF@5%（SD=4.7）

RMSE≈実験測定誤差（0.5–0.7 log units）水準。実用的な精度フロア。

④ 前向き検証（2023–2024年化合物）

評価対象	r	RMSE
全化合物 (n=7502)	0.52	0.91
AD内限定 (n=1841)	0.63	0.78

18ターゲット・2023–2024年発表化合物での前向き評価。AD内限定でRMSEが約20%改善。ただしAD内は全体の約1/3。

R²≈0.3と低く見えるが、バリデーションセットの分散が小さいことによる統計的アーティファクト

⑤ ターゲットファミリー別R²

⑥ 限界・課題

AD内化合物は全体の約1/3 — 新規スキャフォールドでは信頼性低下

R²≈0.3（前向き）: バリデーション分散の小ささが原因だが解釈に注意

構造ベース手法との統合評価は未実施

ローカル推論版非公開 — Webプラットフォーム依存

⑦ パイプライン統合方針

ドッキング → ProfhEXプロファイリング → 選択性スコア付与

⑧ Impact / 公開情報