Structural Optimization of Drug Molecules with Incrementally Trained Language Models

Hormann, Mayer, Lewandowski, Hunklinger, Wein, Merk (LMU Munchen) | Nat. Commun. 17:3456 (2026) | DOI: 10.1038/s41467-026-71591-w | Category: machine_learning

SARシリーズをポテンシー昇順に段階FTするCLM(LSTM)でリード最適化。外部スコアラー不要でPerplexityランキングのみ。PPARg/RORg前向き合成検証済 #CLM #LeadOpt

(1) 背景と課題

化学言語モデル(CLM)を用いたde novo分子設計は近年活発だが、リード最適化(既知ヒット化合物のオンターゲット活性向上)への応用は依然として困難であった。スキャフォールドデコレーション、Matched Molecular Pair(MMP)学習、ADMET最適化Transformerなど既存手法は存在するが、いずれも外部スコアラー(QSAR・ドッキング)に依存し、その品質が性能の上限を決めるという根本問題を抱えていた。

ギャップ: 外部スコアラー無しで「SARの傾向」をモデル内部に学習させ、Perplexityのみで設計をランキングできる訓練パラダイムが存在しなかった。

新規ターゲットや初期SARでQSAR訓練データが20-100化合物しか無い場合、外部スコアラーの精度が低く、CLMによる構造最適化は事実上スコアラーボトルネックに律速される。本研究はこの「スコアラー依存」を断つ訓練設計を提案する。

(2) 手法の概要

核心: 既知リガンドを活性昇順に5段階分割し、CLMを段階的にFTすることで医薬化学者のDMTAサイクルをシリコ模倣。Perplexityのみで設計品質を内在ランキング。

(3) 本研究で示したこと

SAR順次学習がclassic一括FTよりRediscovery Scoreで有意に優位
Perplexityランキングのみで高活性類縁体を選別可能(外部QSAR/ドッキング不要)
t-SNE可視化で段階毎にholdout化学空間に接近する軌跡を確認
PPARg 27 SARシリーズ(各25-79化合物)で遡及検証成功
PPARg・RORg 前向き合成検証で既知代表超のオンターゲット活性化合物を実測

(4a) Rediscovery Score

(4b) Prospective validation

対象ターゲット

PPARg & RORg

遡及評価で有効性を確認後、両ターゲットに対しIncremental CLM-FTを実施し、Top-30設計から優先合成。既知代表化合物を超えるオンターゲット活性を示す新規化合物を取得した。

PPARg: 核内受容体アゴニスト系、SARシリーズ充実
RORg: 自己免疫標的、競合構造クラス豊富
合成成功 + Reporter gene assayで活性確認

-> Perplexityのみによる無監督ランキングが現実の創薬リード最適化で機能することを実証。

(4c) SAR要件と空間追跡

(4d) 限界点

SAR要件が厳格(均一アッセイ・n≥25・T≥0.3)で社内データが満たさない場合あり
類縁体最適化に強いがscaffold hopへの有効性は未検証
LSTM採用でTransformer-CLMとの定量比較が不足
前向き合成数が少数(各ターゲット数化合物)
活性最大化特化のためADMET最適化は別スコアラー併用が必要

(5) テイクホームメッセージ

1. SAR順序が訓練信号
活性昇順での段階FTが、医薬化学者のDMTAサイクルを暗黙の教師信号としてCLMに与える。

2. Perplexity = 内在スコアラー
外部QSAR/ドッキング不要。モデルの確信度が高活性類縁体の自然なランキング指標になる。

3. 小規模SARで動く
n=25-79化合物のSARシリーズで機能。新規ターゲットの初期最適化に適合。

4. 前向き実験で実証
PPARg/RORgで既知代表超活性を獲得。in silico->合成->生物評価のループが閉じた。

ケムインフォマティクス応用

適用先	ユースケース	期待効果
lib/molgen	MolgenYamlにIncremental-FT scorer追加、in-house IC50で5段階FT	外部QSARなしで初期リード最適化
lib/docking	UniDockRunner score を活性代替に5段階ランキング	新規ターゲットの実験データ無しFT

標準OSS(RDKit/TMAP/PyTorch LSTM)で実装可能。Perplexity計算はモデル内蔵で追加コスト極小。

本研究のインパクト

スコアラー依存からの解放: CLMリード最適化のボトルネックを訓練設計で解決
少数データ創薬: n=25-の社内SARで動く実用パラダイム
合成検証済み: PPARg/RORgで実分子合成->活性確認まで到達

Next: Transformer-CLMへの拡張、scaffold hop対応、ADMETマルチ目的化が次の論点。