SeFMol: Steering Semi-Flexible Molecular Diffusion with RL

SeFMol: Steering Semi-Flexible Molecular Diffusion Model for Structure-Based Drug Design with Reinforcement Learning

Zhang et al. (Tongji / UC Berkeley / TU Munich) | DOI: 10.1126/sciadv.ady9955 | Sci. Adv. 12, eady9955 | 2026-04 | Category: machine_learning

X投稿: RL誘導セミフレキシブル分子拡散SeFMolがSBDD生成でVina -7.23 kcal/mol・成功率11.53%のSOTA。8物性同時制御・20倍Fast Sampling・未知タンパクで新規ケモタイプ発見。Sci. Adv. 2026 #SBDD #DiffusionModel

(1) 背景と課題

構造ベース医薬品設計（SBDD）における分子生成は、自己回帰型（Pocket2Mol, ResGen, FLAG）と一発生成の拡散モデル（TargetDiff, DecompDiff, MolCRAFT）の二つのパラダイムに大別される。前者は誤り蓄積、後者は剛体リガンド前提という根本的限界を抱える。

いずれも静的なリガンドモデリングに支配されている一方、実際のタンパク質-リガンド相互作用は本質的に動的であり、結合過程ではコンフォメーション調整が不可欠である。さらに既存手法は高親和性のみを最適化し、複数物性（QED/SA/LogP/TPSA/HBA/HBD/Fsp3/ROTB）の同時制御が困難で、生成分子は学習セットの品質上限を超えられない。

ギャップ: 動的相互作用を取り入れたde novo設計と、8物性の同時制御を、推論コストを増やさずに達成する枠組みが存在しない。

(2) 手法の概要 — SeFMol 2-Stage Pipeline

Stage1で物性条件付け+ポケット特化を獲得した参照Denoiserを固定し、Stage2でポリシーDenoiserをRL更新。各DenoisingステップをMDPのstateとして親和性報酬を最適化、KL制約で過度な逸脱を抑制する。

(3) 本研究で示したこと

Vina Score -7.23 kcal/mol でSOTA、参照分子(-6.36)を13.7%上回る初の手法
成功率 11.53%（タスク固有基準）も最高値
Vina Min/Vina Dock を含む全親和性指標でSOTAを達成
Fast Sampling で 1000→50ステップ（20倍）の効率改善
未見の実世界ターゲットでも文献未報告の新規ケモタイプ発見
QED/SA等の薬物様プロパティ・多様性も競合水準を維持

(4a) 主結果: Vina Score 比較 [kcal/mol]

(4b) 検証方法と結果

CrossDocked2020テストセットの各タンパク質ポケットに対し100分子を生成。Pocket2Mol・FLAG・TargetDiff・MolCRAFT等のSOTAベースラインと、Vina Score / Vina Min / Vina Dock の3指標、成功率、QED、SA、多様性で比較した。

-7.23 kcal/mol

Vina Score (vs reference -6.36, +13.7% improvement)

11.53%

Success rate (task-specific criterion, all-baseline best)

参照分子の親和性を上回ったのはSeFMolが唯一。さらに学習データ外の実世界の未見ターゲットでも、水素結合・疎水性接触などカノニカルな相互作用パターンを保ったまま新規ケモタイプを生成できることを確認した。

(4c) Sampling Steps vs 効率

(4d) 限界点

評価指標がVina Scoreに依存。実験的IC50/Kd/Kiとの乖離リスク
セミフレキシブルはリガンド側のみで、タンパク質側の induced fit / cryptic pocket / アロステリック効果は未対応
学習データ(CrossDocked2020)が既存PDB由来のため、未知ポケット形状での過大評価の懸念
RL報酬に標的特異的な実生物活性は組み込まれておらず、in vitro検証サイクルは未実施
実装公開状況が論文補足/対応著者(guang@in.tum.de)依存で再現性検証コストが高い

(5) テイクホームメッセージ

1. Denoisingを直接RL最適化
各Denoisingステップを MDP state として扱い、KL制約付きポリシー更新で学習データの品質上限を超える分子を生成可能にした。

2. セミフレキシブル設計
剛体リガンド前提を捨て、ポケット幾何学に対するコンフォメーション調整をRLで動的に学習することで Vina -7.23 を達成。

3. 8物性の同時制御
QED/SA/LogP/TPSA/HBA/HBD/Fsp3/ROTB を条件として埋め込み、親和性と薬物様性を両立する条件付き生成を実現。

4. 20x Fast Sampling
1000→50ステップの可変ステップ戦略でRLのスパース報酬問題を緩和、推論コストを劇的に削減。

ケムインフォマティクス応用

適用先	ユースケース	期待効果
lib/docking	UniDockRunner と統合し、ポケット形状から直接de novo候補を生成。ProLIFCalculator で計算した相互作用フィンガープリントスコアをRL報酬に注入	VS非カバー領域の探索
lib/molgen	MolgenYaml が SeFMol を de novo 設計エンジンとして呼び出し、8物性目標値を指定 → MMGBSAEngine/DockFEP に接続	ターゲット特化de novoループ

本研究のインパクト

SBDDの分子生成パラダイムを「静的→動的」に転換した最初の実証
拡散モデル + RL の組合せで学習データの品質上限を超えることを示した
20倍の推論高速化により実用 high-throughput SBDD の現実解として機能