3D分子生成においてEDM等の拡散モデルは高品質な構造を生成できるが、QED・SAS・結合親和性などの薬物設計上重要な特性を多目的に制御することが困難。先行RL拡散手法(DDPO・DPOK等)は画像生成向けの単目的設計で、3D分子の多目的最適化には未対応。フロー整合・エネルギーガイドは微分可能な目的関数のみを扱えるため、AutoDock Vinaのようなブラックボックス外部評価器を直接使用できない。
各特性の閾値超過確率(正規分布の尻尾面積)
全特性を同時充足する確率の積 → 直感的・平滑な多目的報酬
動的ペナルティ: 初期探索→後期収束を自動調整
カットオフδは生成分子の移動平均で動的更新
ベンチマーク: QM9・ZINC15・PubChem(80/10/10分割)
比較手法: SFT-PG, DDPO-SF, DDPO-IS, DPOK(単目的変換)
ADMET評価でEGFR阻害剤候補として妥当な薬物様特性を示した
r(m) = pθ(m)/pθ_old(m)(尤度比)
各拡散タイムステップの遷移確率pθ(zt-1|zt,c)をPDF形式で記録→軌跡全体の尤度を計算してRL勾配推定
| コンポーネント | 役割 |
|---|---|
| Chemprop D-MPNN | μ・σ²推定(不確実性) |
| 動的カットオフ | 移動平均で自動更新 |
| R_bonus | 有効性・新規性・独自性 |
| Tanimoto penalty | 多様性確保 |