ProfhEX: ML-Based Multi-Target Activity Profiling & Liability Prediction
J. Chem. Inf. Model. 2025 — Lunghini, Cerchia, Fava, Pisapia, Sacco, Beccari (EXSCALATE/Dompé)
🎯 693ヒトターゲット・969モデルで早期創薬の
オフターゲットリスクを一括評価する無償Webプラットフォーム
① 背景と課題

ML駆動の化合物-ターゲット活性予測は創薬加速の鍵だが、SEA・SwissTargetPrediction等の既存ツールはターゲット数の制限・古いデータ・バッチ非対応・アクセス困難などの問題を抱えていた。初代ProfhEXも46リアビリティターゲットに限定されていた。

既存ツール: ターゲット数が少なく、データが古く、1件ずつしか処理できない
初代ProfhEX: 46ターゲットのみ(リアビリティ特化)
構造ベース手法は専門知識が必要でハイスループット評価に不向き

→ 5M+生物活性データ × 969モデルの大規模拡張版で問題を一挙解決

② プラットフォーム概要
  • 969 QSARモデル / 693 ヒトターゲット
    pKi・pIC50・pEC50を独立モデルで対応
  • 5M+生物活性データ
    ChEMBL + PubChem + GOSTAR統合
  • バッチ100 SMILES対応
    既存ツールにはほぼない機能
  • AD(適用範囲)フィルター
    Tanimoto MaxTc閾値で信頼度評価
SMILES入力 → Morgan FP → ML回帰 → インタラクティブレポート
③ 全体性能指標(969モデル平均)
0.68
平均 R²(SD=0.10)
0.83
平均 r(SD=0.06)
0.67
平均 RMSE log units
12.4
平均 EF@5%(SD=4.7)

RMSE≈実験測定誤差(0.5–0.7 log units)水準。実用的な精度フロア。

④ 前向き検証(2023–2024年化合物)
評価対象rRMSE
全化合物 (n=7502)0.520.91
AD内限定 (n=1841)0.630.78

18ターゲット・2023–2024年発表化合物での前向き評価。AD内限定でRMSEが約20%改善。ただしAD内は全体の約1/3。

R²≈0.3と低く見えるが、バリデーションセットの分散が小さいことによる統計的アーティファクト
⑤ ターゲットファミリー別R²
ファミリー備考
GPCR Family B~0.78シグナル伝達
Toll様/IL-1受容体~0.79免疫応答
キナーゼ・プロテアーゼ~0.70がん・炎症
CYP酵素~0.59代謝多様性が高い
転写因子・接着タンパク低めデータが少ない
⑥ 限界・課題
AD内化合物は全体の約1/3 — 新規スキャフォールドでは信頼性低下
R²≈0.3(前向き): バリデーション分散の小ささが原因だが解釈に注意
構造ベース手法との統合評価は未実施
ローカル推論版非公開 — Webプラットフォーム依存
⑦ パイプライン統合方針
  • lib/docking後処理
    UniDockRunner出力にオフターゲットプロファイルを付加
  • lib/molgenスコアラー
    選択性(target活性 − off-target活性)を生成時の目的関数化
  • リアビリティフィルター
    HERG/CYP等の高リスクターゲットへの予測値で早期除外
ドッキング → ProfhEXプロファイリング → 選択性スコア付与
⑧ Impact / 公開情報
  • 知る限り最大規模の化合物-ターゲット予測プラットフォーム
  • リアビリティ評価を早期創薬段階に組み込める
  • バッチ100 SMILES対応でHTS後処理に実用的
  • Web: profhex.exscalate.eu(無償)
  • Zenodo: サンプル出力・可視化HTML公開
  • データ: ChEMBL + PubChem + GOSTAR