MolGuidance: Advanced Guidance Strategies for Conditional Molecular Generation with Flow Matching
CFG・AG・MGをSE(3)-等変フローマッチングに統合。連続+離散ハイブリッドでプロパティアライメントSOTA達成(arXiv:2512.12198, Jin, Zeng & Liu et al., 2025)
🎯 条件付き分子生成のプロパティアライメントをvanilla比10%以上改善。AGが4次元(精度/有効性/多様性/速度)バランス最良
① 背景と問題設定

条件付き分子生成では化学的有効性・プロパティ制御・構造多様性・サンプリング効率の4目標を同時に達成する必要がある。画像生成で成功したCFG・AG・MG等のガイダンス手法は3D分子生成に直接適用できない。原因は分子が連続変数(原子座標)離散変数(原子タイプ・結合次数・電荷)を持ち、それぞれに異なるガイダンス定式化が必要なためである。

連続座標: velocity fieldに線形補間でガイダンス適用(画像生成と同様)
離散変数: CTMC rate matrixまたは確率logitsへの補間が必要 → 設計が非自明

→ 3D分子の連続+離散ハイブリッドガイダンス戦略を初めて体系的に研究

② 3種のガイダンス手法
手法原理推論コスト
CFG条件付き/無条件モデル補間2パス
AG(推奨)劣化モデルでガイド2パス(小型)
MGガイド信号を訓練に組込1パス
サンプリング: v_guided = (1+w1)·v_cond - w1·v_uncond [連続]
+ log[(1-w2)·p_uncond + w2·p_cond] [離散, log補間]
→ Bayesian最適化で (w1, w2) を共同決定
③ 離散ガイダンスの鍵発見
【Rate matrix補間(理論的導出)】
R_guided = exp[(1-w2)logR_uncond + w2·logR_cond]
→ w2 > 1.2 で数値不安定 ⚠️

【確率log空間補間(経験的)】
p_guided = softmax(log[(1-w2)p_uncond + w2·p_cond])
→ w2 = 2.5 まで安定 ✅ & 最高性能

理論的優雅さより数値安定性が実用上重要

④ ハイブリッド vs 単独ガイダンス

逆説的発見:

  • 訓練重み: 座標 >> 離散変数(設計通り)
  • サンプリング効果: 離散単独 > 連続単独 (!)
  • ハイブリッド(両方): 全条件で最高性能
訓練とサンプリングの最適化は異なる — 座標は幾何学構築に重要だが、プロパティは原子同一性・結合に支配される
⑤ 4次元比較(QM9)
手法プロパティ↑有効性↑多様性↑速度↑
Vanillabaselinehighhighfastest
CFG★★★★★★★★★★★
AG★★★★★★★★★★★★★
MG★★★★★★★★★★★★

CFGが最高精度、AGが最バランス。QMe14S(14元素)にも同傾向で転移可能。

⑥ Bayesian最適化でのスケール決定

ガイダンススケール(w1: 1.0–3.0, w2: 1.0–3.0)はプロパティ・モデル・データセットで最適値が異なる。Bayesian最適化(50 trial)で自動決定:

minimize: MAE(target_prop, generated_mol_prop)
subject to: w1 ∈ [1.0, 3.0], w2 ∈ [1.0, 3.0]
→ optuna / scikit-optimize で実装可能
⑦ 制限と課題
  • 現在は単一スカラープロパティへの条件付けのみ
  • 多目標最適化(multi-property)への拡張が今後の課題
  • 大規模SBDD(CrossDocked)での検証が未実施
  • log空間補間の理論的根拠が弱い
⑧ テイクホームメッセージ
🎯 ハイブリッドガイダンスが単独を常に超える
連続(座標)と離散(原子タイプ/結合)を独立にガイドし同時最適化。Bayesian最適化でスケール自動決定。
⚖️ AGが実用最推奨(4次元バランス)
劣化モデルによるガイダンスでCFGより速く、CFGを除く全指標で優位。CFGは精度最優先時に選択。
🔢 離散ガイダンスはlog確率補間が安定
理論的に導出されたrate matrix補間はw2>1.2で不安定。log空間補間が安定かつ最高性能。
🔄 QM9→QMe14Sに転移可能
5元素→14元素への拡張でも同傾向が維持され、フレームワークの汎用性を確認。
ケムインフォマティクスへの応用
適用先ユースケース
lib/molgenMolgenYamlのスコアラーをCFG/AG条件に統合。目標QED・LogP・SAへの条件付き生成
lib/molgenBayesian最適化でプロパティ別のw1,w2を自動チューニング
lib/dockingVina scoreをリアルタイムガイダンスとして利用するguided generation
本研究のインパクト
  • 3D分子の連続+離散ハイブリッドガイダンスを初めて体系的に比較
  • log空間離散補間の実用優位性を実証(理論>経験主義に異議)
  • lib/molgenのプロパティ制御生成強化に直接応用可能なフレームワーク