Reward Function Design for RL-Based Molecular Generation:
Additive vs. Multiplicative Strategies for KRAS Non-Covalent Inhibitor Discovery

DOI: 10.26434/chemrxiv-2025-2lw7f Category: Machine Learning / AI Authors: Galvin et al. (Elix, Inc.) Year: 2025
Goal: 多目的RL分子生成における報酬関数(加算 vs 乗算)の体系的比較とKRAS阻害剤探索への実証
1背景と課題
2手法の概要
Radd = w₁·Dock + w₂·Pharm + w₃·QED + w₄·(1-SA/10)
Rmul = Dockα·Pharmβ·QEDγ·(1-SA/10)δ
Rε-mul = ∏ (sᵢ + ε)kᵢ, ε=0.01
3本研究で示したこと
a同時最適化成功率(全4軸閾値)
0% 10% 20% 9.5% 18.7% Additive Multiplicative (+97% vs add)
乗算型は 9.5% → 18.7% へほぼ倍増。Compounding効果が定量的に確認された。
b4軸スコア空間(Dock × Pharm)
Dock score (Gnina) → Pharm fit → threshold Additive Multiplicative success zone
乗算型分布は右上(高Dock×高Pharm)に集中。加算型は片側のみ満たす分子が散在。
c生成 → 閾値フィルタ funnel
10,000 QED>0.5: 6,200 SA<4: 3,400 all4: 950 Additive 10,000 QED>0.5: 7,400 SA<4: 4,800 all4: 1,870 ε-Multiplicative
最終の同時満足化合物:加算 950 → 乗算 1,870(≈2倍)。
d訓練収束と ε 補正効果
Training step (×10³) Mean reward Additive Naive mul ε-mul (ε=0.01) cold-start 全滅状態
素朴な乗算型は初期報酬ゼロで停滞。ε=0.01 加算でgradient復活、最終報酬も加算型超え。
5テイクホームメッセージ
(1) 報酬設計が成果を決める
RL分子生成の多目的最適化では、報酬のaggregate関数選択そのものがアルゴリズムより支配的。
×(乗算)が +(加算)の 2倍 の同時満足率。
(2) ε-multiplicative がベストプラクティス
cold-start問題には ε≈0.01 補正が有効。安定収束+compounding効果を両立し、
Murcko scaffold多様性も犠牲にしない。
(3) lib/molgen への移植価値が高い
MolgenYamlaggregate: multiplicative / reward_epsilon を追加。
lib/docking(UniDock+ProLIF IFP) との連携でKRAS等の標的固有探索が即実用可能。