Diffusion Models are Molecular Dynamics Simulators

調和アダプター1つで逆拡散ステップ＝ Euler-Maruyama MD積分を代数的に証明（arXiv:2511.17741, Diamond & Lill, 2025）

🎯 Force field不要。学習済みスコアモデルから時間相関MDトラジェクトリを生成。MD比コスト10²〜10³倍削減の道筋

① 背景と核心的問いかけ

従来の拡散モデルによる分子生成はi.i.d.サンプリングであり、生成された構造間に時間的相関がなくMDトラジェクトリとして意味を持たない。一方、Langevin MD（GROMACS/OpenMM）はΔt≤2 fsの制約でマイクロ秒に10⁸ステップ必要。この2つを統一する数学的橋渡しがなかった。

拡散モデル：高品質コンフォーマを生成できるが、時間構造なし → MDトラジェクトリに使えない

Langevin MD：物理的正確性あり → 安定性制約で極小Δtが必要 → 長時間スケールが計算コスト的に困難

→ 調和アダプター（quadratic coupling）1つでこの断絶を埋める代数的恒等式を証明

② 主定理：拡散 ⟺ MD の等価性

【EM積分（Langevin MD）】
x_{n+1} = x_n - Δt·∇V(x_n) + √(2D·Δt)·ξ_n

【調和アダプター付き逆拡散】
mean: m_n = x_n - D·Δt·score(x_n)
x_{n+1} ~ N(m_n, 2D·Δt·I)

spring k = β/(2Δt) → Δt = β/(2k)
⬛ 2式は代数的に完全に一致

③ 精度バジェット（定理1）

DKL(真のMD || 拡散MD) ≤
T·ε² （モデル誤差 = スコア近似誤差）
+ C·Σ(Δt²) （グリッド誤差 = 時間離散化）

2つの誤差が独立に制御可能
スコアモデルの精度 × ステップ数 N で品質が決定

N=10〜50 でMD-like自己相関を再現可能
再訓練不要：kを変えるだけで温度・解像度制御

④ 検証：C13炭化水素 Rg時系列

GeoDiff（学習済みスコアモデル）＋harmonic adapterでC13炭化水素9種のRg時系列を生成し、OpenMM 5ns MD（1000フレーム）と比較。

T=100ステップ

vs OpenMM 5ns MD（~10⁶ステップ相当）

8/9コンフォーマでRg分布が良好に一致
バッチ相関行列がLangevin特有の時間相関を再現

④ 時間並列MD化

バッチ次元 = トラジェクトリの時間スライス
全スライスを同時更新（GPU並列）
↓ 調和カップリングでスライス間の整合性を保証
↓ 完全並列MD — 逐次EM積分の制約を克服
↓ 「物理空間での逐次生成」を
「逆拡散サンプル生成」に置換

蒸留でN=10〜50に削減可能 → Δt1ステップ≪2fsの従来MDより指数的に速い

⑤ 温度制御と拡張性

温度T：spring定数kを変えるだけ（k=β/(2Δt)、β=1/kBT）
Metropolis補正（1ステップ）でEθのBoltzmann分布を厳密保証
Appendix：underdamped Langevin拡張
Appendix：MCMC/metadynamics/Alchemical FEへのモジュラー結合

現在の実証は小分子（C13炭化水素）のみ。タンパク質-リガンド系での検証が今後の課題

⑥ 従来MDとの比較

項目	Langevin MD	拡散モデルMD
Force field	必要	不要
Δt制約	≤2 fs（安定性）	なし（kで制御）
長時間コスト	高（10⁸〜10⁹ステップ）	低（N=10〜50）
時間相関	あり	あり（新！）
並列化	逐次	完全並列

⑦ テイクホームメッセージ

🔬 拡散モデル = MD積分器（数学的証明）
調和アダプター付き逆拡散ステップとEM積分の代数的恒等式を初めて証明。再訓練不要。

⚡ 10²〜10³倍の計算コスト削減
Δtが暗黙的かつ安定性非制約。蒸留後N=50で長時間MDの統計を再現可能。

🌡️ 推論時の温度・解像度自由制御
spring kを変えるだけで有効温度とΔtを制御。モデル再訓練一切不要。

🔗 MCMCとFEPへのモジュラー拡張
Appendixではmetadynamics・alchemical FE計算への結合も議論。lib/fep高速化への道。

ケムインフォマティクスへの応用

適用先	ユースケース
lib/md	GeoDiff+harmonic adapterで高速MDトラジェクトリ生成
lib/md	バッチ相関行列による遅い集団変数の自動同定
lib/fep	Alchemical FE計算の並列化（λ-scheduling + adapter）

学習済みGeoDiffに10行のadapterコードを追加するだけで既存lib/mdへの統合が可能

本研究のインパクト

拡散モデルとMDを統一する初の代数的理論を確立
Force field不要のデータ駆動型MDフレームワークへの理論的基盤を提供
lib/mdの高速コンフォーマサンプリングに直接統合可能な軽量アダプター設計