MarS-FM: Generative Modeling of Molecular Dynamics via Markov State Models
Kapuśniak, Gabellini, Bronstein, Tossou, Di Giovanni (Oxford / Valence Labs / Recursion / Aithyra) | arXiv: 2509.24779
🎯 MSM による離散メタ安定状態の遷移学習と Flow Matching の組み合わせで、希少コンフォメーション変化を含む MD の 100 倍以上高速エミュレーションを実現する。
① 背景と課題

従来の MD エミュレーター(MD-Emu)は固定ラグ時間 τ の遷移密度 p(x_{t+τ}|x_t) を直接学習するため、頻出する微小な構造揺らぎが訓練シグナルを支配し、フォールディング等の希少だが生物学的に重要な大コンフォメーション遷移の学習が不十分になる根本的な問題があった。

局所的・頻出の揺らぎが訓練を支配—希少大遷移(フォールディング等)を十分学習できない
拡散モデルベース(MD-Odin 等)もこの根本的制限を解消できていなかった

→ MSM で連続遷移を離散的メタ安定状態遷移に変換し、希少遷移への訓練シグナルを均等化

② 手法: MSM-Emu フレームワーク
MarS-FM パイプライン MD トラジェクトリ(訓練データ) MSM 構築 骨格二面角・接触距離 → k-means → n 状態クラスター → 遷移行列 T MarS-FM 訓練 状態 i → 状態 j のペアを Flow Matching で学習(均等サンプリング) 推論: MSM 遷移行列 T で状態列生成 → 各ステップで MarS-FM が 3D 構造を生成
② 手法: 連続 vs 離散遷移の違い
従来 MD-Emu 固定ラグτ 連続学習 局所揺らぎが支配 希少遷移= 学習不十分 MarS-FM MSM 状態間遷移 A B 均等サンプリング C★ 希少遷移も 充分学習
③ 本研究で示したこと(要点)
  • MSM による離散状態遷移学習で希少大コンフォメーション遷移を効率的にサンプリング
  • MD-CATH テストセット(最大 500 残基)で全指標において既存 MD-Emu を大差で上回る
  • MD より 100 倍以上高速なコンフォメーションサンプリングを実現
  • 配列非類似性 20% 以下の厳格評価で未知タンパク質への汎化性を実証、コード公開済み
④ 主な結果 (a) MD-Emu との RMSD 比較
RMSD 精度(低いほど良、MD-CATH テスト) MD-Odin TTS MDGen MarS-FM ↑↑ 最高精度 (参照 MD アンサンブルとの構造的類似性)
④ 主な結果 (b) 高速化倍率
>100×
MarS-FM のサンプリング速度(MD 比)
×1
古典 MD シミュレーション(基準)

RMSD・Rg・二次構造含量の全指標で精度を維持しながら 100 倍以上高速化

④ 主な結果 (c) 汎化性評価 (MD-CATH)
指標従来 MD-EmuMarS-FM
RMSD低精度大差で優越
回転半径 Rg低精度大差で優越
二次構造含量低精度大差で優越
配列同一性20% 以下で厳格評価
タンパク質サイズ最大 500 残基
④ 主な結果 (d) 希少遷移サンプリング
アンフォールディング (希少事象) サンプリング ネイティブ状態 (頻出) アンフォールド (希少) 従来 MD-Emu: 生成失敗 MarS-FM: 生成成功 ✓ MSM の均等サンプリングが希少遷移学習を保証
⑤ テイクホームメッセージ
MSM の前処理効果
連続遷移を離散メタ安定状態遷移に変換することで希少事象への訓練シグナルを均等化—MD-Emu の根本的問題を解決。
100 倍高速化
全指標で既存手法を大差で上回りながら >100 倍高速。数日かかる μs MD を数時間以内に短縮できる可能性。
限界
MSM 構築に十分な MD データが必要。多ドメイン・膜タンパク質・複合体系は未検証。MSM クラスター数の最適化が課題。
lib/md 統合価値
クリプティックポケット・アロステリック部位を含む希少コンフォメーションの高速探索—RMSDAnalyzer/HBondAnalyzer への入力として活用可能。
MD-Emu 比較
手法希少遷移汎化速度
MD-Odin
MDGen
TTS
MarS-FM>100×
本研究のインパクト
  • lib/md: 希少コンフォメーション(クリプティックポケット・アロステリクス)の高速探索を実現
  • lib/docking: MarS-FM 生成アンサンブルを UniDockRunner のアンサンブルドッキング構造プールに活用
  • lib/fep: FEP 計算の出発構造アンサンブル多様化でコンバージェンス改善が期待