RL-Diffusion 3D Mol Design — arXiv:2510.21153

Uncertainty-Aware Multi-Objective RL-Guided Diffusion for 3D De Novo Molecular Design

Chen, Kim, Domaratzki, Hu (Western Univ.) | arXiv:2510.21153 | NeurIPS 2025

🎯 EDM+PPO+Chemprop不確実性で QED・SAS・ドッキング親和性を同時最適化する3D分子生成

① 問題設定と先行研究の限界

3D分子生成においてEDM等の拡散モデルは高品質な構造を生成できるが、QED・SAS・結合親和性などの薬物設計上重要な特性を多目的に制御することが困難。先行RL拡散手法（DDPO・DPOK等）は画像生成向けの単目的設計で、3D分子の多目的最適化には未対応。フロー整合・エネルギーガイドは微分可能な目的関数のみを扱えるため、AutoDock Vinaのようなブラックボックス外部評価器を直接使用できない。

1D/2D表現ベースのRLは3D分子幾何を直接制御できず、ドッキング・MDに不適

既存多目的手法（スカラリゼーション・制約・勾配ベース）は非微分可能報酬に対応困難

② フレームワーク概要

条件付きEDM（E(n)-EGNN）
↓ n分子サンプリング + 軌跡記録
↓ ChempropサロゲートD-MPNN
U_single = P(property > δ | μ, σ²)
↓ U_multi = Π U_single
↓ R_bonus (有効性・新規性・独自性)
↓ -λ(t)·D(m) (Tanimoto多様性ペナルティ)
↓ PPO clipped policy gradient
モデルパラメータ更新

③ 不確実性対応多目的報酬

U_single(m;δ) = η·∫_δ^∞ N(x; μ(m), σ²(m))dx

各特性の閾値超過確率（正規分布の尻尾面積）

U_multi = Π_i U_single_i

全特性を同時充足する確率の積 → 直感的・平滑な多目的報酬

R_total = U_multi · R_bonus - λ₀e^(-αt) · D(m)

動的ペナルティ: 初期探索→後期収束を自動調整

カットオフδは生成分子の移動平均で動的更新

④ 検証（3データセット + MD/ADMET）

ベンチマーク: QM9・ZINC15・PubChem（80/10/10分割）

比較手法: SFT-PG, DDPO-SF, DDPO-IS, DPOK（単目的変換）

3データセットで一貫してSOTA超え（QED・SAS・結合親和性充足率）
GeoLDM・GFMDiffへの汎化も確認（アーキテクチャ非依存）
アブレーション: 15以上の代替多目的手法と比較

4,000 ps

AmberTools+OpenMM MD（ff14SB/GAFF/TIP3P）でEGFR結合安定性確認

ADMET評価でEGFR阻害剤候補として妥当な薬物様特性を示した

⑤ PPO Policy Update

L_PPO = -E[min(r·R, clip(r, 1-ε, 1+ε)·R)]

r(m) = pθ(m)/pθ_old(m)（尤度比）

各拡散タイムステップの遷移確率pθ(zt-1|zt,c)をPDF形式で記録→軌跡全体の尤度を計算してRL勾配推定

コンポーネント	役割
Chemprop D-MPNN	μ・σ²推定（不確実性）
動的カットオフ	移動平均で自動更新
R_bonus	有効性・新規性・独自性
Tanimoto penalty	多様性確保

⑥ 計算化学パイプラインへの応用

lib/molgen: RL多目的最適化ループ
MolgenYamlの最適化エンジンをPPOベースRLフレームワークに拡張。QED・SAS・UniDockRunner結合スコアをU_multi報酬として定義することで非微分可能評価器を直接使用可能

lib/docking: 報酬信号直接統合
UniDockRunnerのVinaスコアをサロゲートなしにRL報酬として使用。候補数が多い場合はChempropサロゲートで高速フィルタリング→上位候補のみVina評価という2段構成も有効

lib/md: MD事後評価パイプライン
AmberTools/OpenMM 4ns MDをlib/mdに統合し、生成候補の結合安定性を自動スクリーニング。RMSD・HBond解析をフィルタ基準として使用しFEP計算対象を絞り込む

実装の優先度: High
Code公開あり（GitHub: Kyle4490/RL-Diffusion）。Chemprop不確実性推定・EDMバックボーン・PPOループを段階的にlib/molgenへ統合可能。アーキテクチャ非依存性が高い

⑦ 限界・今後

MD評価は4ns（実際の安定性確認には長時間MDや実験が必要）

EGFR単一標的のみ評価（他標的への汎化未検証）

サロゲート精度不足時の報酬信号品質低下

3D拡散モデルの計算コストは1D/2D比で大きい

実装公開: github.com/Kyle4490/RL-Diffusion
GeoLDM/GFMDiff対応 → 将来的なアーキテクチャ移行に対応