DynaRepo: the repository of macromolecular conformational dynamics

高分子複合体MDデータのFAIR準拠リポジトリ（Nucleic Acids Research 2025, Mokhtari, Karami et al.）

🎯 700+複合体・計1,146 μsのMDデータを公開し、Dynamics-aware深層学習の訓練基盤を提供する

① 背景と課題

AlphaFold2/3などの革新的な構造予測手法が普及した現在、次の課題は「動的な挙動の予測」に移行している。ほとんどの深層学習モデルは静的構造に依存しており、抗体–抗原認識・内在的無秩序タンパク質・タンパク質–核酸結合といった動的現象をとらえられない。根本的な原因は、高品質な大規模動的データセットの不足である。

既存MDリポジトリ（ATLAS・Dynameomics等）は単鎖タンパク質が中心で、複合体・核酸系のデータが著しく不足

研究グループごとにMDプロトコルが異なり、データを横断的に比較・統合できない

→ 統一プロトコルによる大規模複合体MDデータをFAIRに公開し、dynamics-awareモデルの基盤とする

② データセット構成

データセット	件数	シミュレーション
PDBbind 複合体	405	500 ns × 3
SAbDab 抗原	220	500 ns × 3
トランジェント複合体	53	500 ns × 3
ヌクレオソーム変異体	7種	2〜4 μs × 2〜6

1,146 μs

累計シミュレーション時間（700+ システム・1,500+ タンパク質鎖）

② MDプロトコル

GROMACS 2024.2 / CHARMM36m
↓ TIP3P水・150 mM NaCl
↓ 500 ns × 3レプリカ（310 K, 1 atm, NPT）
↓ 2 fs タイムステップ・LINCS・PME
↓ RMSD/RMSF で安定性チェック → 不安定系除外

核酸系はAmber20/NAMD3・ff14SB+BSC1・4 fs（HMR+SHAKE）で2〜4 μs。全系を統一品質基準で管理。

③ このリポジトリのポイント

タンパク質–タンパク質・タンパク質–DNA複合体に特化した初のMDDBノード
REST API + OPTIMADE準拠でプログラマティックアクセス可能
RMSD/RMSF/PCA/H-bond/ポケット等11種以上の解析を事前計算済み
Jupyter Notebookで4カテゴリのメタ解析チュートリアルを提供
DynamicGT（結合部位予測）など複数の動的DLモデルの訓練基盤として実績

④ 提供解析一覧

カテゴリ	解析項目
品質管理	RMSD（全原子/Cα）、RMSF、TM-score、Rg、PCA
インタラクション	残基間距離、静電ポテンシャル面、水素結合、CMIP energy
その他	クラスタリング、MDpocketポケット検出、リガンド記述子

水素結合: 距離 <3 Å かつ角度 >135°。ポケット: MDpocketで時系列検出。

④ データセット選定フロー

PDBbind 2,852構造
↓ NMR除外 → 分解能 <3.5 Å → ギャップ <4残基
↓ MM-align 全対全アラインメント
↓ 階層的クラスタリング (distance=1-MM-score, avg linkage, 閾値0.55)
↓ 433クラスタ → 手動検査 → 405代表構造

④ API・アクセス方法

ウェブ: https://dynarepo.inria.fr/ （無料・ログイン不要）

ダウンロード可能ファイル

ファイル	形式
構造	.pdb
トラジェクトリ	.xtc
トポロジー	.tpr

REST APIによるプログラマティックアクセス対応。OPTIMADE準拠インタフェースも提供。

④ 関連成果・実績

DynamicGT

DynaRepoデータで訓練した動的結合部位予測モデル（bioRxiv 2025）

BioEmu / Boltz-2

MDトラジェクトリで訓練されたconformational ensemble生成・親和性予測モデル

コミュニケーションネットワーク解析・アロステリーシグナリング研究（JCTC 2025）にも活用済み

⑤ テイクホームメッセージ

🗃️ 複合体MDデータの希少性を解消
700+複合体・1,146 μsの統一プロトコルMDデータをFAIR公開。既存リポジトリでは欠如していた高分子複合体の動的データを提供。

⚡ Dynamics-aware DLの訓練基盤
DynamicGT（結合部位予測）など複数の動的深層学習モデルが既にDynaRepoデータで改善を実証。次世代AI創薬の基盤として機能。

🔗 REST API + 事前計算解析
11種以上の解析結果をAPIで即座に取得可能。トラジェクトリを手動処理することなくRMSD/PCA/H-bondデータを活用できる。

⚠️ 限界: 500 nsは過渡的
大スケール構造変化や無秩序タンパク質の完全なサンプリングには不十分。核酸複合体データも現状はヌクレオソーム系に限定。

ケムインフォマティクスへの応用

適用先	ユースケース
lib/md	REST APIクライアント実装 → 大規模複合体MD解析
lib/docking	PCA代表構造 → ensemble dockingに活用
lib/docking	動的H-bondプロファイルをドッキング前処理として使用
lib/md	HBondAnalyzer拡張 → 複合体インタフェース対応

MdAnalysisと組み合わせてAPI取得トラジェクトリをローカル解析するワークフローが即実装可能

本研究のインパクト

高分子複合体MDデータの最大規模FAIRデータベースを実現
Dynamics-aware深層学習モデル開発のデータ不足を解消
MDDBフェデレーションの欧州標準インフラで相互運用性を確保