DynaRepo: the repository of macromolecular conformational dynamics
高分子複合体MDデータのFAIR準拠リポジトリ(Nucleic Acids Research 2025, Mokhtari, Karami et al.)
🎯 700+複合体・計1,146 μsのMDデータを公開し、Dynamics-aware深層学習の訓練基盤を提供する
① 背景と課題

AlphaFold2/3などの革新的な構造予測手法が普及した現在、次の課題は「動的な挙動の予測」に移行している。ほとんどの深層学習モデルは静的構造に依存しており、抗体–抗原認識・内在的無秩序タンパク質・タンパク質–核酸結合といった動的現象をとらえられない。根本的な原因は、高品質な大規模動的データセットの不足である。

既存MDリポジトリ(ATLAS・Dynameomics等)は単鎖タンパク質が中心で、複合体・核酸系のデータが著しく不足
研究グループごとにMDプロトコルが異なり、データを横断的に比較・統合できない

→ 統一プロトコルによる大規模複合体MDデータをFAIRに公開し、dynamics-awareモデルの基盤とする

② データセット構成
データセット件数シミュレーション
PDBbind 複合体405500 ns × 3
SAbDab 抗原220500 ns × 3
トランジェント複合体53500 ns × 3
ヌクレオソーム変異体7種2〜4 μs × 2〜6
1,146 μs
累計シミュレーション時間(700+ システム・1,500+ タンパク質鎖)
② MDプロトコル
GROMACS 2024.2 / CHARMM36m
↓ TIP3P水・150 mM NaCl
↓ 500 ns × 3レプリカ(310 K, 1 atm, NPT)
↓ 2 fs タイムステップ・LINCS・PME
↓ RMSD/RMSF で安定性チェック → 不安定系除外

核酸系はAmber20/NAMD3・ff14SB+BSC1・4 fs(HMR+SHAKE)で2〜4 μs。全系を統一品質基準で管理。

③ このリポジトリのポイント
  • タンパク質–タンパク質・タンパク質–DNA複合体に特化した初のMDDBノード
  • REST API + OPTIMADE準拠でプログラマティックアクセス可能
  • RMSD/RMSF/PCA/H-bond/ポケット等11種以上の解析を事前計算済み
  • Jupyter Notebookで4カテゴリのメタ解析チュートリアルを提供
  • DynamicGT(結合部位予測)など複数の動的DLモデルの訓練基盤として実績
④ 提供解析一覧
カテゴリ解析項目
品質管理RMSD(全原子/Cα)、RMSF、TM-score、Rg、PCA
インタラクション残基間距離、静電ポテンシャル面、水素結合、CMIP energy
その他クラスタリング、MDpocketポケット検出、リガンド記述子

水素結合: 距離 <3 Å かつ角度 >135°。ポケット: MDpocketで時系列検出。

④ データセット選定フロー
PDBbind 2,852構造
↓ NMR除外 → 分解能 <3.5 Å → ギャップ <4残基
↓ MM-align 全対全アラインメント
↓ 階層的クラスタリング (distance=1-MM-score, avg linkage, 閾値0.55)
↓ 433クラスタ → 手動検査 → 405代表構造
④ API・アクセス方法

ウェブ: https://dynarepo.inria.fr/ (無料・ログイン不要)

ダウンロード可能ファイル

ファイル形式
構造.pdb
トラジェクトリ.xtc
トポロジー.tpr

REST APIによるプログラマティックアクセス対応。OPTIMADE準拠インタフェースも提供。

④ 関連成果・実績
DynamicGT
DynaRepoデータで訓練した動的結合部位予測モデル(bioRxiv 2025)
BioEmu / Boltz-2
MDトラジェクトリで訓練されたconformational ensemble生成・親和性予測モデル

コミュニケーションネットワーク解析・アロステリーシグナリング研究(JCTC 2025)にも活用済み

⑤ テイクホームメッセージ
🗃️ 複合体MDデータの希少性を解消
700+複合体・1,146 μsの統一プロトコルMDデータをFAIR公開。既存リポジトリでは欠如していた高分子複合体の動的データを提供。
Dynamics-aware DLの訓練基盤
DynamicGT(結合部位予測)など複数の動的深層学習モデルが既にDynaRepoデータで改善を実証。次世代AI創薬の基盤として機能。
🔗 REST API + 事前計算解析
11種以上の解析結果をAPIで即座に取得可能。トラジェクトリを手動処理することなくRMSD/PCA/H-bondデータを活用できる。
⚠️ 限界: 500 nsは過渡的
大スケール構造変化や無秩序タンパク質の完全なサンプリングには不十分。核酸複合体データも現状はヌクレオソーム系に限定。
ケムインフォマティクスへの応用
適用先ユースケース
lib/mdREST APIクライアント実装 → 大規模複合体MD解析
lib/dockingPCA代表構造 → ensemble dockingに活用
lib/docking動的H-bondプロファイルをドッキング前処理として使用
lib/mdHBondAnalyzer拡張 → 複合体インタフェース対応

MdAnalysisと組み合わせてAPI取得トラジェクトリをローカル解析するワークフローが即実装可能

本研究のインパクト
  • 高分子複合体MDデータの最大規模FAIRデータベースを実現
  • Dynamics-aware深層学習モデル開発のデータ不足を解消
  • MDDBフェデレーションの欧州標準インフラで相互運用性を確保