化学言語モデル(CLM)を用いたde novo分子設計は近年活発だが、リード最適化(既知ヒット化合物のオンターゲット活性向上)への応用は依然として困難であった。スキャフォールドデコレーション、Matched Molecular Pair(MMP)学習、ADMET最適化Transformerなど既存手法は存在するが、いずれも外部スコアラー(QSAR・ドッキング)に依存し、その品質が性能の上限を決めるという根本問題を抱えていた。
新規ターゲットや初期SARでQSAR訓練データが20-100化合物しか無い場合、外部スコアラーの精度が低く、CLMによる構造最適化は事実上スコアラーボトルネックに律速される。本研究はこの「スコアラー依存」を断つ訓練設計を提案する。
核心: 既知リガンドを活性昇順に5段階分割し、CLMを段階的にFTすることで医薬化学者のDMTAサイクルをシリコ模倣。Perplexityのみで設計品質を内在ランキング。
遡及評価で有効性を確認後、両ターゲットに対しIncremental CLM-FTを実施し、Top-30設計から優先合成。既知代表化合物を超えるオンターゲット活性を示す新規化合物を取得した。
-> Perplexityのみによる無監督ランキングが現実の創薬リード最適化で機能することを実証。
| 適用先 | ユースケース | 期待効果 |
|---|---|---|
| lib/molgen | MolgenYamlにIncremental-FT scorer追加、in-house IC50で5段階FT | 外部QSARなしで初期リード最適化 |
| lib/docking | UniDockRunner score を活性代替に5段階ランキング | 新規ターゲットの実験データ無しFT |
標準OSS(RDKit/TMAP/PyTorch LSTM)で実装可能。Perplexity計算はモデル内蔵で追加コスト極小。