RLMolLM: PPO + GA Enhanced Masked LM for Inverse Molecular Design

RLMolLM: PPO強化学習 × 遺伝的アルゴリズム × Masked LMによる逆分子設計

再訓練なし多プロパティ同時最適化 · スキャフォールド制約対応（J. Chem. Inf. Model. 2025, 65, 12292−12304 · Lin & Naskar et al.）

🎯 QED/SA/hERG/Caco-2を同時最適化し、共有結合ウォーヘッド等の構造制約を保ちながら創薬分子を生成する

① 解決する3つの課題

課題1：SMILES-LMは文法的に無効な文字列を生成しやすい（validity問題）

課題2：複数プロパティ最適化には都度の再訓練が必要（柔軟性問題）

課題3：REINFORCEは高分散・policy collapse — ADMET最適化が不安定

→ RLMolLM: PPO clip + GA mutation で3問題を同時に解決

② フレームワーク: LM-RL アーキテクチャ

SMILES → BERTトークン化 → マスク位置選択
↓
BERT Encoder（事前学習済み）
↓          ↓
Actor head   Critic head
π(a|s)：トークン分布   V(s)：状態価値
↓
トークン置換 → 新SMILES → RDKit validity確認
↓
プロパティ評価（QED/SA/hERG/Caco-2）→ 報酬 r
↓
PPO clip（Δθ を制限）+ GA mutation/selection
↓
Entropyボーナスで探索維持 → 繰り返し最適化

③ 結果(a) QED比較（3データセット）

モデル	GDB13 QED	Moses QED	Zinc QED
JTVAE	0.49	0.70	0.64
MolGPT	0.50	0.75	0.67
LSTM	0.51	0.80	0.73
Taiga	0.64	0.83	0.75
RLMolLM	0.84	0.87	0.87

▲ 最大31%改善 · SA 1.74-2.10（最良） · Validity 93-99%

③ 結果(b) ADMET多プロパティ最適化

指標	Moses参照	RLMolLM	改善
QED (↑)	0.81		0.87	+7%
SA (↓)	2.46		2.03	-17%
hERG毒性 (↓)	0.36	0.08	4.5倍低減
Caco-2 (↑)	-4.69	-3.88	大幅改善

再訓練なしで設定変更のみ → 即座に新目標へ適応

③ 結果(c) スキャフォールド制約

1,2,4-三置換ベンゼン骨格を固定して生成

既存手法より大幅に高いvalidity達成
共有結合ウォーヘッド・薬効団保持モードに対応
mask_strategy: replacement/insertion/deletion/random配置をYAML設定

scaffold_smiles 指定のみ

設定変更だけで制約モード ON/OFF

④ テイクホームメッセージ

🔒 PPO clip で安定したRL最適化
REINFORCEのpolicy collapse問題をPPOで解決。entropyボーナスで多様性も維持し、分子生成RL訓練の安定性を実現。

🧬 GA × LMのシナジー
GA mutationをマスクトークン操作として実装し、RLの局所解脱出と多様な化学空間探索を同時に実現。

💊 hERG毒性4.5倍低減
ADMET多プロパティ最適化で臨床安全性の主要課題を計算設計段階で対処できることを実証。

⚙️ 再訓練不要・設定変更のみ
目標プロパティをYAML設定として変更するだけで即座に適応 — 実運用での柔軟性が高い。

ケムインフォマティクスへの応用

適用先	ユースケース
lib/molgen	JobManager/MolgenYamlにPPO+GAエンジンを統合
lib/docking	UniDockスコアをrewardにしたウォーヘッド保持最適化
lib/fep	ΔΔGサロゲートモデルをrewardにしたFEP駆動最適化
lib/molgen	MMGBSA + ADMET同時最適化スコアラー