Integrating BioEmu Ensemble Sampling with Molecular Dynamics and Markov State Models for Protein Conformational Analysis

DOI: 10.64898/2026.01.07.698041 Category: computational_chemistry Bhakat et al. (2026)
GOAL BioEmu生成アンサンブル × 短時間MD × MSM を統合し、長時間MDの 1/10 コストで同等のコンフォメーション空間サンプリングを達成する。
1背景と課題

従来の MD は単一構造から出発し μs スケール 計算でも高エネルギー障壁を越えられない。

拡散モデル系(RoseTTAFold All-Atom, BioEmu)はアンサンブルを高速生成できるが、遷移速度・自由エネルギー面の定量化が困難

レアコンフォメーション(クリプティックポケットやアロステリック状態)は長時間 MD でも観測しづらく、創薬応用のボトルネックになっている。

2手法の概要

3 段階パイプライン:

  • Step 1: BioEmu で 数百〜数千 の多様コンフォメーション生成
  • Step 2: 各構造を初期点に GROMACS / NAMD で 10〜100 ns の短時間 MD
  • Step 3: PyEMMA で TICA → クラスタリング → MSM 構築

遅い集団運動を TICA で抽出し MSM 状態空間とする。メタスタブル状態・遷移速度・自由エネルギー面を定量化。

3本研究で示したこと
  • BioEmu アンサンブルを「シード集合」として活用し、並列短時間 MD で広域探索を実現
  • 長時間 MD の 約 1/10 計算コストで同等の RMSD 分布・主要メタスタブル状態を再現
  • レア状態の 発見率が改善 ( T4 lysozyme L99A / BPTI / Apo myoglobin で検証 )
  • BioEmu の生成品質と TICA lag time が結果を支配する重要パラメータであることを同定
4主な結果(4 パネル)
a計算コスト比較(GPU·hours)
0 250 500 750 1000 ~1000 Long MD (1 μs) ~100 BioEmu+MD+MSM 1/10 cost
長時間 MD ≈ 1000 GPU·h に対し、提案法は ≈ 100 GPU·h で同等サンプリング。
bRMSD 分布の一致度
RMSD (Å) density 0 2 4 6 8 Long MD (1 μs) BioEmu+MD+MSM KL ≈ 0.08
主要メタスタブル状態(2 ピーク)の位置と高さがほぼ一致。
cパイプライン (Funnel)
BioEmu: ~2000 conformers Short MD: 50 ns × N MSM (TICA + clusters)
2000 構造を 50 ns ずつ並列化 → MSM で動力学を統合。
dテストシステム別の発見率
レア状態発見率 (%) 0 25 50 75 100 T4 L99A 50% 81% BPTI 60% 90% Apo Mb 43% 74% Long MD Proposed
BioEmu+MD+MSM はレア状態発見率を全 3 系で大幅改善(約 +20–30 pt)。
5テイクホームメッセージ
生成 AI × 物理シミュの相補的統合 BioEmu の高速アンサンブル生成と MD の物理整合性を組み合わせ、双方の弱点(動力学定量化/障壁越え)を解消。
10 倍の計算効率化 長時間 MD ≈ 1000 GPU·h → 提案法 ≈ 100 GPU·h で同等サンプリング。創薬パイプラインの実用域へ。
限界と今後 BioEmu 学習外フォールド・アロステリック状態は要検証。lag time / クラスタリング選択は専門知識依存(自動化が次の課題)。