ML駆動の化合物-ターゲット活性予測は創薬加速の鍵だが、SEA・SwissTargetPrediction等の既存ツールはターゲット数の制限・古いデータ・バッチ非対応・アクセス困難などの問題を抱えていた。初代ProfhEXも46リアビリティターゲットに限定されていた。
→ 5M+生物活性データ × 969モデルの大規模拡張版で問題を一挙解決
RMSE≈実験測定誤差(0.5–0.7 log units)水準。実用的な精度フロア。
| 評価対象 | r | RMSE |
|---|---|---|
| 全化合物 (n=7502) | 0.52 | 0.91 |
| AD内限定 (n=1841) | 0.63 | 0.78 |
18ターゲット・2023–2024年発表化合物での前向き評価。AD内限定でRMSEが約20%改善。ただしAD内は全体の約1/3。
| ファミリー | R² | 備考 |
|---|---|---|
| GPCR Family B | ~0.78 | シグナル伝達 |
| Toll様/IL-1受容体 | ~0.79 | 免疫応答 |
| キナーゼ・プロテアーゼ | ~0.70 | がん・炎症 |
| CYP酵素 | ~0.59 | 代謝多様性が高い |
| 転写因子・接着タンパク | 低め | データが少ない |