機械学習モデルはトレーニング化学空間の内部では高い予測精度を発揮するが、構造的に新規な分子(Out-of-Distribution, OOD)に対しては信頼性が著しく低下する。十億規模の化合物ライブラリをスクリーニングする際に多数の誤予測が生じる原因となり、ドラッグディスカバリーで深刻な障害となっている。
従来の applicability domain はTanimoto類似度閾値に依存し、構造的に新規な「真のヒット」を排除してしまう。一方、MC Dropout や深層アンサンブルなどの不確実性推定は OOD で過信頼に陥る既知の弱点を抱える。
半教師ありオートエンコーダで 分子特性予測 と SMILES再構成 を同時最適化。推論時は再構成損失をそのまま unfamiliarity として OOD 指標に転用する。
(1) 系統評価: 33 ChEMBL バイオアクティビティデータセット。Tanimoto類似度行列に対するスペクトルクラスタリングでクラスタを同定し、エルボー法でクラスタ数を自動決定、クラスタ単位で ID/OOD 分割。
(2) 大規模スクリーニング: 数億〜20億超の化合物ライブラリでJMM unfamiliarityによる事前フィルタリング。
(3) Wet lab検証: 臨床的に重要な 2 キナーゼ標的に対し、unfamiliarity でフィルタした候補群を実験的にスクリーニング。低μM活性を 7 化合物で確認。これらはトレーニングデータと低類似度であり、従来 AD では棄却される新規骨格。
| 適用先モジュール | ユースケース |
|---|---|
| lib/docking (UniDockRunner) | 20億規模ライブラリの事前フィルタとして JMM unfamiliarity を適用しヒット率向上 |
| lib/molgen (MolgenYaml) | 生成分子の novelty/reliability トレードオフ評価スコアラー |
| lib/fep (MMGBSAEngine) | 高コスト計算前の信頼性担保フィルタとして |