NeuralMD: A Multi-Grained Symmetric Differential Equation Model for Learning Protein-Ligand Binding Dynamics
DOI: 10.1038/s41467-025-67808-z  |  Nature Communications, 2025  |  Category: machine_learning
NeuralMD:多粒度SE(3)等変BindingNet + Neural ODE/SDEでタンパク質-リガンドMDを加速。既存MLに対し誤差1/15・有効性70%向上、数値MD比1000倍以上高速。Nat Commun 2025。 #NeuralMD #MD #DrugDiscovery
[1] 背景と課題

タンパク質-リガンド結合ダイナミクスのMDシミュレーションは創薬において結合親和性・輸送特性・ポケット動力学の予測に不可欠である。しかし従来の数値MD(GROMACS等)は個々の原子に対する力計算が極めて重く、ナノ秒を超える長時間シミュレーションは計算コスト上の難問であった。例えば GROMACS では 0.28 時間/ns を要し、大規模スクリーニングや µs スケール解析の障壁となっている。

ML ベースの MD(HDNNPs, DeePMD, TorchMD, Allegro)はエネルギー面フィッティングに留まり、対象は単一分子に限定されてきた。タンパク質-リガンド複合体への本格的 ML サロゲートは未確立であった。MISATO データセット(2023 年公開、PDB 由来 16,972 複合体の 8 ns NVT MD)の登場で初めて大規模学習が可能となった。

課題: 複合体系での SE(3) 等変性確保、長時間ロールアウト時の安定性、エネルギー/力ラベルなしでの軌跡学習が未解決。
[2] 手法の概要 — BindingNet + Neural ODE/SDE
3-Granularity Architecture Ligand atoms N atoms (3D) Backbone N-Cα-C frame Residue-atom Cα interactions Vector frame proj. (SE(3) eq.) Predict acceleration a(t) (Newton 2nd law) 2nd-order ODE 2 steps (deterministic) 2nd-order SDE 10 steps (Langevin)

座標を直接予測せず加速度を予測 → 2 次積分することで Newton 第二法則を暗黙の制約として組み込み、長時間ロールアウトの安定性を確保。

[3] 本研究で示したこと
  • BindingNet による 3 粒度(リガンド原子・backbone・残基-原子)階層記述
  • Vector frame 射影で SE(3) 等変性を保証 — 複合体系で初の本格適用
  • 2 次 ODE/SDE 定式化により エネルギー/力ラベル不要な軌跡学習
  • MISATO の 10 シングル + 3 マルチ 軌跡タスクで全 ML 比較手法を圧倒
  • 数値 MD 比 1000–25,000 倍の高速化を達成
[4a] 主な結果 — 再構成誤差の低減倍率
Reconstruction error reduction (× vs. VerletMD) 15 12 9 6 3 0 GNN-MD Denoising 1.5× VerletMD NeuralMD 15× Multi-traj task / Stability +70%
[4b] 検証 — MISATO データセット

MISATO(PDB 由来 16,972 複合体, X 線結晶 + 半経験的 QM, 8 ns NVT MD)を使用。Semi-flexible 設定(タンパク剛体・リガンド柔軟)で、初期座標 x₀ と初期速度 v₀ から 100 スナップショット(8 ns、0.08 ns 間隔)の軌跡を予測。

100 / 1k / 13k マルチ軌跡 複合体数(3 段階スケール)
10 systems シングル軌跡 RMSF-Ligand 評価系

評価指標: MAE / RMSE(再構成精度)+ Matching / Stability(有効性)。Stability はリガンド原子ペア距離が真値との差 ≤ 0.5 Å に収まる割合。

[4c] 計算速度比較(log scale)
Speedup vs. GROMACS (log scale) 10× 100× 1k× 10k× 25k× GROMACS NeuralMD ≥1000× NeuralMD* 25,000× GNN-MD ~10k× * optimal config / GROMACS = 0.28 hr/ns
[4d] 限界点
  • Semi-flexible 設定 = タンパク質剛体固定。induced fit / コンフォメーション遷移は捉えられない
  • MISATO は 8 ns のみ。µs スケール長時間挙動への外挿は未検証
  • 1KTI, 4YUR では突発的な位置変化(OOD)に全 ML モデルが失敗
  • 自由エネルギー・結合定数の直接計算には未対応
  • シングル軌跡で 4ZX0, 3EOV, 4K6W, 4G3E, 3B9S は改善顕著
[5] テイクホームメッセージ
物理インフォームド設計
座標を直接予測するのではなく 加速度 → 2 次 ODE/SDE 積分を介することで、Newton 第二法則という強い帰納バイアスを獲得。長時間ロールアウト安定性が決定的に向上。
多粒度 SE(3) 等変性
リガンド原子 / backbone / 残基-原子の 3 粒度を vector frame 射影で統合。複合体系における SE(3) 等変表現の最初の本格的実装。
エネルギーフリー学習
力・エネルギーラベルを使わず座標トラジェクトリのみで訓練可能。MISATO のような結晶構造由来データから直接学習でき、QM コストを回避。
圧倒的な加速
VerletMD 比で 誤差 1/15・Stability +70%、GROMACS 比で 1000~25,000× の高速化。VS や µs 解析の前段スクリーナーとして十分実用的。
ケムインフォマティクスへの応用
応用先ユースケース期待効果
lib/mdML サロゲートで MD 軌跡生成(SE(3) 等変 + ODE/SDE)1000× 加速・大規模 VS
lib/dockingドッキングポーズの動的安定性スクリーニング偽陽性ポーズ除去

RMSDAnalyzer / HBondAnalyzer の前段に NeuralMD 軌跡生成を組み込むことで、結晶構造単発の解析から「動的アンサンブル」解析へ拡張可能。

本研究のインパクト
  • 複合体系 ML-MD の事実上初の SOTA — 後続研究の基準モデルに
  • VS / リード最適化の 動的評価レイヤを実現可能に
  • Energy-free 軌跡学習という 新しい学習パラダイムを提示