eRMSF: A Python Package for Ensemble-Based RMSF Analysis of Biomolecular Systems
J. Chem. Inf. Model. | 2025年11月 | DOI: 10.1021/acs.jcim.5c02413 | category: computational_chemistry
MDトラジェクトリ・AlphaFold2サブサンプリング・BioEmu・NMR・クライオEMの揺らぎを同一インターフェースで比較する MDAKit 準拠 Python パッケージ。
(1) 背景:RMSFを巡る「時系列前提」の壁

RMSF(Root Mean Square Fluctuation)は残基ごとの揺らぎを表す古典的指標で、創薬におけるホットスポット同定・アロステリック解析・MD品質管理に広く用いられている。GROMACS / AMBER / 標準 MDAnalysis の RMSF 計算は、いずれも「時系列で並んだフレーム」を入力前提に設計されている。

近年は AlphaFold2 サブサンプリング(MSA を間引いて多数の構造を生成)や BioEmu のような 平衡アンサンブルを直接予測する DL モデル、さらに NMR・クライオEM 由来の構造分布が広く使われ始めたが、これらは「時間軸を持たない構造の集合」であり、既存 RMSF ツールでは直接扱えなかった。

既存 MDAnalysis の RMSF クラスは Trajectory に強く結合しており、静的アンサンブル群の比較には独自スクリプトが必要だった。
BioEmu / AF2 サブサンプリングと MD の柔軟性を 同一の残基インデックス上でプロットする標準ワークフローが存在しなかった。

→ 多様なアンサンブル源を一つの API に集約し、揺らぎを並置比較できるツールが必要。

(2) 手法:MDAKit 準拠の統一 RMSF エンジン
  • 入力は MDAnalysis Universe のリスト。各 Universe は MD トラジェクトリでも、構造分布(PDB マルチモデル)でも可。
  • 参照構造への CA Kabsch 整列を行ってから、選択原子集合(既定: protein and name CA)の RMSF を計算。
  • 原子・残基・領域の カスタム選択に対応(backbone, resid 50:120 等)。
  • 複数 Universe の RMSF を 共通残基番号に揃えて重ね描き、MD vs DL の柔軟性を直接比較。
  • MDAKit テンプレートに準拠:CI / pytest / 型ヒント整備済。
ermsfkit パイプライン MD .xtc/.dcd 時系列 AF2 subsampl. 構造分布 BioEmu DL平衡 NMR/cryoEM MDAnalysis Universe[] 統一API CA Kabsch 整列 参照→揃える RMSF(i) 残基 i 揺らぎ
(3) 本研究で示したこと
  • 4 種以上のアンサンブル源(MD / AF2 / BioEmu / 実験)を 同一 API で読み込めることを実装で確認。
  • 同一タンパク質を対象に、MD と BioEmu アンサンブルの RMSF を 残基単位で並置して可視化。
  • BioEmu は MD よりも柔軟領域を 過剰評価する傾向を eRMSF の比較で定量化。
  • AF2 サブサンプリングは 局所柔軟性は再現するが、ドメインモーション等の集団運動は捉えにくいことを示した。
  • pip install ermsfkit で導入可・MDAKit 公認・CC-BY 4.0 で公開。
(4a) 入力ソース別 RMSF プロファイル
残基番号 vs RMSF (Å) — 同一タンパク質 0 1 2 3 RMSF Å 1 50 100 150 200 MD 1μs BioEmu (DL) AF2 subsampling BioEmuはloopを過大評価 AF2はdomain motion鈍化

同一残基インデックスに 3 ソースを重ねて描けるのが eRMSF の中核機能。

(4b) アンサンブル源 × 揺らぎ再現性
ソース局所flexドメインmotion計算コスト
MD(古典FF, μs級)△〜○高(GPU日〜週)
BioEmu(DL平衡)○ ただし過大低(推論秒〜分)
AF2 subsampling×〜△中(GPU 数十分)
NMR ensemble—(実験依存)
cryoEM(多状態)—(実験依存)
eRMSF 比較で得た知見
DL は flex 領域を一様に +20〜50% 程度過大評価する傾向

MD を 真値の物差しに据え、DL アンサンブルのキャリブレーションを定量できる。

(4c) MDAKit 統合・実装品質
パッケージ仕様レーダー 入力多様性 5/5 テスト 4/5 ドキュメント 4/5 MDAKit 5/5 統計検定 1/5

MDAKit 公認=MDAnalysis 公式に登録され、依存・テスト・型ヒントの最低基準を満たす。

(4d) 配布と適用範囲
ライセンス / 配布
CC-BY 4.0 / pip install ermsfkit
対応生体高分子
タンパク質中心(核酸・脂質は限定的)
既定 selection
protein and name CA
特集号
JCIM「Computational Chemistry: A View from Latin America」

既存 MD ワークフローに 1 行で組み込める軽量ライブラリ。

(5) テイクホームメッセージ
統一インターフェースの価値
MDAnalysis Universe を共通入口に据えるだけで、MD・AF2・BioEmu・NMR・cryoEM を 1 つのスクリプトで扱える。
DL アンサンブルの校正基盤
BioEmu は loop を +20〜50% 過大評価。eRMSF を物差しに、DL 出力の信頼性を残基単位で評価できる。
AF2 サブサンプリングの適材適所
局所揺らぎは MD と良く一致するが、ドメインモーションは捉えにくい。用途を分けて使う判断軸を提供。
残された宿題
信頼区間・有意差検定・フレーム数バイアス補正・核酸/膜サポートが今後の課題。v0 として価値ある最小構成
応用補足:lib/md への統合提案
  • RMSFAnalyzer 拡張: 既存 RMSDAnalyzer / HBondAnalyzer と並ぶ EnsembleRMSFAnalyzer を新設し、内部で ermsfkit を呼ぶ薄いアダプタを提供。
  • マルチソース可視化: AF2 / BioEmu / 実 MD の RMSF を同一残基インデックスで重ね描きする plot_overlay() を追加。
  • DL 出力 QC ゲート: BioEmu / AF2 結果を採用前に RMSF Δ > 閾値 でフラグし、過剰柔軟領域を warn。
  • FEP/MM-GBSA 前処理: アンサンブルの RMSF が高い残基を flexible residue 候補として ProLIF / Meeko に橋渡し。
インパクト
  • 「時系列でない構造分布」を一級市民として扱う RMSF の標準器
  • BioEmu や AF2 サブサンプリング等 DL アンサンブル時代の評価基盤になり得る。
  • MDAKit エコシステムにより、追加実装ゼロで他 MDAnalysis ツールと連結可能。