Diffusion Models are Molecular Dynamics Simulators
調和アダプター1つで逆拡散ステップ = Euler-Maruyama MD積分 を代数的に証明(arXiv:2511.17741, Diamond & Lill, 2025)
🎯 Force field不要。学習済みスコアモデルから時間相関MDトラジェクトリを生成。MD比コスト10²〜10³倍削減の道筋
① 背景と核心的問いかけ

従来の拡散モデルによる分子生成はi.i.d.サンプリングであり、生成された構造間に時間的相関がなくMDトラジェクトリとして意味を持たない。一方、Langevin MD(GROMACS/OpenMM)はΔt≤2 fsの制約でマイクロ秒に10⁸ステップ必要。この2つを統一する数学的橋渡しがなかった。

拡散モデル:高品質コンフォーマを生成できるが、時間構造なし → MDトラジェクトリに使えない
Langevin MD:物理的正確性あり → 安定性制約で極小Δtが必要 → 長時間スケールが計算コスト的に困難

→ 調和アダプター(quadratic coupling)1つでこの断絶を埋める代数的恒等式を証明

② 主定理:拡散 ⟺ MD の等価性
【EM積分(Langevin MD)】
x_{n+1} = x_n - Δt·∇V(x_n) + √(2D·Δt)·ξ_n

【調和アダプター付き逆拡散】
mean: m_n = x_n - D·Δt·score(x_n)
x_{n+1} ~ N(m_n, 2D·Δt·I)

spring k = β/(2Δt) → Δt = β/(2k)
⬛ 2式は代数的に完全に一致
③ 精度バジェット(定理1)
DKL(真のMD || 拡散MD) ≤
T·ε² (モデル誤差 = スコア近似誤差)
+ C·Σ(Δt²) (グリッド誤差 = 時間離散化)

2つの誤差が独立に制御可能
スコアモデルの精度 × ステップ数 N で品質が決定
  • N=10〜50 でMD-like自己相関を再現可能
  • 再訓練不要:kを変えるだけで温度・解像度制御
④ 検証:C13炭化水素 Rg時系列

GeoDiff(学習済みスコアモデル)+harmonic adapterでC13炭化水素9種のRg時系列を生成し、OpenMM 5ns MD(1000フレーム)と比較。

T=100ステップ
vs OpenMM 5ns MD(~10⁶ステップ相当)
  • 8/9コンフォーマでRg分布が良好に一致
  • バッチ相関行列がLangevin特有の時間相関を再現
④ 時間並列MD化
バッチ次元 = トラジェクトリの時間スライス
全スライスを同時更新(GPU並列)
↓ 調和カップリングでスライス間の整合性を保証
↓ 完全並列MD — 逐次EM積分の制約を克服
↓ 「物理空間での逐次生成」を
「逆拡散サンプル生成」に置換

蒸留でN=10〜50に削減可能 → Δt1ステップ≪2fsの従来MDより指数的に速い

⑤ 温度制御と拡張性
  • 温度T:spring定数kを変えるだけ(k=β/(2Δt)、β=1/kBT)
  • Metropolis補正(1ステップ)でEθのBoltzmann分布を厳密保証
  • Appendix:underdamped Langevin拡張
  • Appendix:MCMC/metadynamics/Alchemical FEへのモジュラー結合
現在の実証は小分子(C13炭化水素)のみ。タンパク質-リガンド系での検証が今後の課題
⑥ 従来MDとの比較
項目Langevin MD拡散モデルMD
Force field必要不要
Δt制約≤2 fs(安定性)なし(kで制御)
長時間コスト高(10⁸〜10⁹ステップ)低(N=10〜50)
時間相関ありあり(新!)
並列化逐次完全並列
⑦ テイクホームメッセージ
🔬 拡散モデル = MD積分器(数学的証明)
調和アダプター付き逆拡散ステップとEM積分の代数的恒等式を初めて証明。再訓練不要。
10²〜10³倍の計算コスト削減
Δtが暗黙的かつ安定性非制約。蒸留後N=50で長時間MDの統計を再現可能。
🌡️ 推論時の温度・解像度自由制御
spring kを変えるだけで有効温度とΔtを制御。モデル再訓練一切不要。
🔗 MCMCとFEPへのモジュラー拡張
Appendixではmetadynamics・alchemical FE計算への結合も議論。lib/fep高速化への道。
ケムインフォマティクスへの応用
適用先ユースケース
lib/mdGeoDiff+harmonic adapterで高速MDトラジェクトリ生成
lib/mdバッチ相関行列による遅い集団変数の自動同定
lib/fepAlchemical FE計算の並列化(λ-scheduling + adapter)

学習済みGeoDiffに10行のadapterコードを追加するだけで既存lib/mdへの統合が可能

本研究のインパクト
  • 拡散モデルとMDを統一する初の代数的理論を確立
  • Force field不要のデータ駆動型MDフレームワークへの理論的基盤を提供
  • lib/mdの高速コンフォーマサンプリングに直接統合可能な軽量アダプター設計