1背景と課題
- RL分子生成は多目的最適化(活性・薬物様性・合成容易性)が必須
- 従来手法(REINVENT, FREED, MolDQN)は線形加算型報酬が主流
- 加算型は「一部の目標だけ満たす」分子に高得点を与えがち
- KRAS G12C switch-II pocket:共有結合阻害剤(ソトラシブ)は承認済だが、選択性・耐性対応で非共有結合型新規スキャフォールドが課題
- 多目標を同時に満足する化合物を効率良く探す報酬設計が未解決
2手法の概要
- ベース:REINVENT系 SMILES-RNN policy(RL)
- 4軸スコア:Dock(Gnina) / Pharm(RDKit) / QED / SA
Radd = w₁·Dock + w₂·Pharm + w₃·QED + w₄·(1-SA/10)
Rmul = Dockα·Pharmβ·QEDγ·(1-SA/10)δ
Rε-mul = ∏ (sᵢ + ε)kᵢ, ε=0.01
- ファーマコフォア:switch-II pocketの疎水コア接触+HBA+芳香環スタッキング
- 各条件で 3 random seed × 10,000分子 生成
3本研究で示したこと
- 乗算型は加算型より同時最適化率が約2倍(+97%)— 全4閾値を満たす分子の割合が顕著に向上
- 乗算型は「いずれかのスコアが0なら全体0」の特性でcompounding効果を自然に誘発
- 素朴な乗算型は訓練初期の報酬全滅(cold-start)で不安定化 → ε-multiplicative 補正で安定化と性能を両立
- Murcko scaffold多様性は加算型と同等を維持(多様性を犠牲にしない)
- 理論的考察:乗算型は勾配伝播と報酬景観の形状で多目的協調を促す
a同時最適化成功率(全4軸閾値)
乗算型は 9.5% → 18.7% へほぼ倍増。Compounding効果が定量的に確認された。
b4軸スコア空間(Dock × Pharm)
乗算型分布は右上(高Dock×高Pharm)に集中。加算型は片側のみ満たす分子が散在。
c生成 → 閾値フィルタ funnel
最終の同時満足化合物:加算 950 → 乗算 1,870(≈2倍)。
d訓練収束と ε 補正効果
素朴な乗算型は初期報酬ゼロで停滞。ε=0.01 加算でgradient復活、最終報酬も加算型超え。
5テイクホームメッセージ
(1) 報酬設計が成果を決める
RL分子生成の多目的最適化では、報酬のaggregate関数選択そのものがアルゴリズムより支配的。
×(乗算)が +(加算)の 2倍 の同時満足率。
(2) ε-multiplicative がベストプラクティス
cold-start問題には ε≈0.01 補正が有効。安定収束+compounding効果を両立し、
Murcko scaffold多様性も犠牲にしない。
(3) lib/molgen への移植価値が高い
MolgenYaml に aggregate: multiplicative / reward_epsilon を追加。
lib/docking(UniDock+ProLIF IFP) との連携でKRAS等の標的固有探索が即実用可能。