Reward Function Design for RL Molecular Generation

1背景と課題

RL分子生成は多目的最適化（活性・薬物様性・合成容易性）が必須
従来手法（REINVENT, FREED, MolDQN）は線形加算型報酬が主流
加算型は「一部の目標だけ満たす」分子に高得点を与えがち
KRAS G12C switch-II pocket：共有結合阻害剤（ソトラシブ）は承認済だが、選択性・耐性対応で非共有結合型新規スキャフォールドが課題
多目標を同時に満足する化合物を効率良く探す報酬設計が未解決

2手法の概要

ベース：REINVENT系 SMILES-RNN policy（RL）
4軸スコア：Dock(Gnina) / Pharm(RDKit) / QED / SA

R_add = w₁·Dock + w₂·Pharm + w₃·QED + w₄·(1-SA/10)

R_mul = Dock^α·Pharm^β·QED^γ·(1-SA/10)^δ

R_ε-mul = ∏ (sᵢ + ε)^kᵢ, ε=0.01

ファーマコフォア：switch-II pocketの疎水コア接触＋HBA＋芳香環スタッキング
各条件で 3 random seed × 10,000分子 生成

3本研究で示したこと

乗算型は加算型より同時最適化率が約2倍（+97%）— 全4閾値を満たす分子の割合が顕著に向上
乗算型は「いずれかのスコアが0なら全体0」の特性でcompounding効果を自然に誘発
素朴な乗算型は訓練初期の報酬全滅（cold-start）で不安定化 → ε-multiplicative 補正で安定化と性能を両立
Murcko scaffold多様性は加算型と同等を維持（多様性を犠牲にしない）
理論的考察：乗算型は勾配伝播と報酬景観の形状で多目的協調を促す

a同時最適化成功率（全4軸閾値）

乗算型は 9.5% → 18.7% へほぼ倍増。Compounding効果が定量的に確認された。

b4軸スコア空間（Dock × Pharm）

乗算型分布は右上（高Dock×高Pharm）に集中。加算型は片側のみ満たす分子が散在。

c生成 → 閾値フィルタ funnel

最終の同時満足化合物：加算 950 → 乗算 1,870（≈2倍）。

d訓練収束と ε 補正効果

素朴な乗算型は初期報酬ゼロで停滞。ε=0.01 加算でgradient復活、最終報酬も加算型超え。

5テイクホームメッセージ

(1) 報酬設計が成果を決める
RL分子生成の多目的最適化では、報酬のaggregate関数選択そのものがアルゴリズムより支配的。
×（乗算）が +（加算）の 2倍の同時満足率。

(2) ε-multiplicative がベストプラクティス
cold-start問題には ε≈0.01 補正が有効。安定収束＋compounding効果を両立し、
Murcko scaffold多様性も犠牲にしない。

(3) lib/molgen への移植価値が高い
MolgenYaml に aggregate: multiplicative / reward_epsilon を追加。
lib/docking(UniDock+ProLIF IFP) との連携でKRAS等の標的固有探索が即実用可能。

Reward Function Design for RL-Based Molecular Generation:Additive vs. Multiplicative Strategies for KRAS Non-Covalent Inhibitor Discovery

Reward Function Design for RL-Based Molecular Generation:
Additive vs. Multiplicative Strategies for KRAS Non-Covalent Inhibitor Discovery