MolGuidance: Advanced Guidance Strategies for Conditional Molecular Generation

MolGuidance: Advanced Guidance Strategies for Conditional Molecular Generation with Flow Matching

CFG・AG・MGをSE(3)-等変フローマッチングに統合。連続+離散ハイブリッドでプロパティアライメントSOTA達成（arXiv:2512.12198, Jin, Zeng & Liu et al., 2025）

🎯 条件付き分子生成のプロパティアライメントをvanilla比10%以上改善。AGが4次元（精度/有効性/多様性/速度）バランス最良

① 背景と問題設定

条件付き分子生成では化学的有効性・プロパティ制御・構造多様性・サンプリング効率の4目標を同時に達成する必要がある。画像生成で成功したCFG・AG・MG等のガイダンス手法は3D分子生成に直接適用できない。原因は分子が連続変数（原子座標）と離散変数（原子タイプ・結合次数・電荷）を持ち、それぞれに異なるガイダンス定式化が必要なためである。

連続座標: velocity fieldに線形補間でガイダンス適用（画像生成と同様）

離散変数: CTMC rate matrixまたは確率logitsへの補間が必要 → 設計が非自明

→ 3D分子の連続+離散ハイブリッドガイダンス戦略を初めて体系的に研究

② 3種のガイダンス手法

手法	原理	推論コスト
CFG	条件付き/無条件モデル補間	2パス
AG（推奨）	劣化モデルでガイド	2パス（小型）
MG	ガイド信号を訓練に組込	1パス

サンプリング: v_guided = (1+w1)·v_cond - w1·v_uncond [連続]
+ log[(1-w2)·p_uncond + w2·p_cond] [離散, log補間]
→ Bayesian最適化で (w1, w2) を共同決定

③ 離散ガイダンスの鍵発見

【Rate matrix補間（理論的導出）】
R_guided = exp[(1-w2)logR_uncond + w2·logR_cond]
→ w2 > 1.2 で数値不安定 ⚠️

【確率log空間補間（経験的）】
p_guided = softmax(log[(1-w2)p_uncond + w2·p_cond])
→ w2 = 2.5 まで安定 ✅ & 最高性能

理論的優雅さより数値安定性が実用上重要

④ ハイブリッド vs 単独ガイダンス

逆説的発見：

訓練重み: 座標 >> 離散変数（設計通り）
サンプリング効果: 離散単独 > 連続単独 (!)
ハイブリッド（両方）: 全条件で最高性能

訓練とサンプリングの最適化は異なる — 座標は幾何学構築に重要だが、プロパティは原子同一性・結合に支配される

⑤ 4次元比較（QM9）

手法	プロパティ↑	有効性↑	多様性↑	速度↑
Vanilla	baseline	high	high	fastest
CFG	★★★★	★★★	★★	★★
AG	★★★	★★★★	★★★	★★★
MG	★★	★★★	★★★	★★★★

CFGが最高精度、AGが最バランス。QMe14S（14元素）にも同傾向で転移可能。

⑥ Bayesian最適化でのスケール決定

ガイダンススケール（w1: 1.0–3.0, w2: 1.0–3.0）はプロパティ・モデル・データセットで最適値が異なる。Bayesian最適化（50 trial）で自動決定：

minimize: MAE(target_prop, generated_mol_prop)
subject to: w1 ∈ [1.0, 3.0], w2 ∈ [1.0, 3.0]
→ optuna / scikit-optimize で実装可能

⑦ 制限と課題

現在は単一スカラープロパティへの条件付けのみ
多目標最適化（multi-property）への拡張が今後の課題
大規模SBDD（CrossDocked）での検証が未実施
log空間補間の理論的根拠が弱い

⑧ テイクホームメッセージ

🎯 ハイブリッドガイダンスが単独を常に超える
連続（座標）と離散（原子タイプ/結合）を独立にガイドし同時最適化。Bayesian最適化でスケール自動決定。

⚖️ AGが実用最推奨（4次元バランス）
劣化モデルによるガイダンスでCFGより速く、CFGを除く全指標で優位。CFGは精度最優先時に選択。

🔢 離散ガイダンスはlog確率補間が安定
理論的に導出されたrate matrix補間はw2>1.2で不安定。log空間補間が安定かつ最高性能。

🔄 QM9→QMe14Sに転移可能
5元素→14元素への拡張でも同傾向が維持され、フレームワークの汎用性を確認。

ケムインフォマティクスへの応用

適用先	ユースケース
lib/molgen	MolgenYamlのスコアラーをCFG/AG条件に統合。目標QED・LogP・SAへの条件付き生成
lib/molgen	Bayesian最適化でプロパティ別のw1,w2を自動チューニング
lib/docking	Vina scoreをリアルタイムガイダンスとして利用するguided generation

本研究のインパクト

3D分子の連続+離散ハイブリッドガイダンスを初めて体系的に比較
log空間離散補間の実用優位性を実証（理論>経験主義に異議）
lib/molgenのプロパティ制御生成強化に直接応用可能なフレームワーク