SeFMol: Steering Semi-Flexible Molecular Diffusion Model for Structure-Based Drug Design with Reinforcement Learning
Zhang et al. (Tongji / UC Berkeley / TU Munich) | DOI: 10.1126/sciadv.ady9955 | Sci. Adv. 12, eady9955 | 2026-04 | Category: machine_learning
X投稿: RL誘導セミフレキシブル分子拡散SeFMolがSBDD生成でVina -7.23 kcal/mol・成功率11.53%のSOTA。8物性同時制御・20倍Fast Sampling・未知タンパクで新規ケモタイプ発見。Sci. Adv. 2026 #SBDD #DiffusionModel
(1) 背景と課題

構造ベース医薬品設計(SBDD)における分子生成は、自己回帰型(Pocket2Mol, ResGen, FLAG)と一発生成の拡散モデル(TargetDiff, DecompDiff, MolCRAFT)の二つのパラダイムに大別される。前者は誤り蓄積、後者は剛体リガンド前提という根本的限界を抱える。

いずれも静的なリガンドモデリングに支配されている一方、実際のタンパク質-リガンド相互作用は本質的に動的であり、結合過程ではコンフォメーション調整が不可欠である。さらに既存手法は高親和性のみを最適化し、複数物性(QED/SA/LogP/TPSA/HBA/HBD/Fsp3/ROTB)の同時制御が困難で、生成分子は学習セットの品質上限を超えられない。

ギャップ: 動的相互作用を取り入れたde novo設計と、8物性の同時制御を、推論コストを増やさずに達成する枠組みが存在しない。
(2) 手法の概要 — SeFMol 2-Stage Pipeline
Stage1-A: Pretrain Molecule3D 1M mols Stage1-B: Fine-tune CrossDocked2020 100K SE(3)-Equivariant GNN Denoiser (rigid reference) Stage 2: SFRL (Semi-Flexible RL) Denoising step = MDP state, KL-constrained policy update Fast Sampling 50 steps 8-property condition SBDD分子生成 (target-conditioned)

Stage1で物性条件付け+ポケット特化を獲得した参照Denoiserを固定し、Stage2でポリシーDenoiserをRL更新。各DenoisingステップをMDPのstateとして親和性報酬を最適化、KL制約で過度な逸脱を抑制する。

(3) 本研究で示したこと
  • Vina Score -7.23 kcal/mol でSOTA、参照分子(-6.36)を13.7%上回る初の手法
  • 成功率 11.53%(タスク固有基準)も最高値
  • Vina Min/Vina Dock を含む全親和性指標でSOTAを達成
  • Fast Sampling で 1000→50ステップ(20倍)の効率改善
  • 未見の実世界ターゲットでも文献未報告の新規ケモタイプ発見
  • QED/SA等の薬物様プロパティ・多様性も競合水準を維持
(4a) 主結果: Vina Score 比較 [kcal/mol]
Vina Score (lower = better binding) -7.5 -7.0 -6.5 -6.0 -5.5 -6.36 Ref -5.97 Pkt2Mol -6.30 TgtDiff -6.59 MolCRAFT -7.23 SeFMol Reference CrossDocked2020 test, 100 mols/pocket
(4b) 検証方法と結果

CrossDocked2020テストセットの各タンパク質ポケットに対し100分子を生成。Pocket2Mol・FLAG・TargetDiff・MolCRAFT等のSOTAベースラインと、Vina Score / Vina Min / Vina Dock の3指標、成功率、QED、SA、多様性で比較した。

-7.23 kcal/mol
Vina Score (vs reference -6.36, +13.7% improvement)
11.53%
Success rate (task-specific criterion, all-baseline best)

参照分子の親和性を上回ったのはSeFMolが唯一。さらに学習データ外の実世界の未見ターゲットでも、水素結合・疎水性接触などカノニカルな相互作用パターンを保ったまま新規ケモタイプを生成できることを確認した。

(4c) Sampling Steps vs 効率
Fast Sampling: 1000 -> 50 steps (20x) 1000 500 250 100 50 推論ステップ数 TgtDiff 1000st / 3.6% MolCRAFT 500st / 6.7% 11.53% SeFMol/50st バブルサイズ = 成功率 (大きいほど高い) 20x faster + better
(4d) 限界点
  • 評価指標がVina Scoreに依存。実験的IC50/Kd/Kiとの乖離リスク
  • セミフレキシブルはリガンド側のみで、タンパク質側の induced fit / cryptic pocket / アロステリック効果は未対応
  • 学習データ(CrossDocked2020)が既存PDB由来のため、未知ポケット形状での過大評価の懸念
  • RL報酬に標的特異的な実生物活性は組み込まれておらず、in vitro検証サイクルは未実施
  • 実装公開状況が論文補足/対応著者(guang@in.tum.de)依存で再現性検証コストが高い
(5) テイクホームメッセージ
1. Denoisingを直接RL最適化
各Denoisingステップを MDP state として扱い、KL制約付きポリシー更新で学習データの品質上限を超える分子を生成可能にした。
2. セミフレキシブル設計
剛体リガンド前提を捨て、ポケット幾何学に対するコンフォメーション調整をRLで動的に学習することで Vina -7.23 を達成。
3. 8物性の同時制御
QED/SA/LogP/TPSA/HBA/HBD/Fsp3/ROTB を条件として埋め込み、親和性と薬物様性を両立する条件付き生成を実現。
4. 20x Fast Sampling
1000→50ステップの可変ステップ戦略でRLのスパース報酬問題を緩和、推論コストを劇的に削減。
ケムインフォマティクス応用
適用先ユースケース期待効果
lib/dockingUniDockRunner と統合し、ポケット形状から直接de novo候補を生成。ProLIFCalculator で計算した相互作用フィンガープリントスコアをRL報酬に注入VS非カバー領域の探索
lib/molgenMolgenYaml が SeFMol を de novo 設計エンジンとして呼び出し、8物性目標値を指定 → MMGBSAEngine/DockFEP に接続ターゲット特化de novoループ
本研究のインパクト
  • SBDDの分子生成パラダイムを「静的→動的」に転換した最初の実証
  • 拡散モデル + RL の組合せで学習データの品質上限を超えることを示した
  • 20倍の推論高速化により実用 high-throughput SBDD の現実解として機能