ATMOS: Autoregressive Trajectory Model for Open-ended Simulation
Shi/Tang et al., PKU/BioGeometry/Mila | arXiv:2603.17633 | March 2026
🎯 SSM+Pairformer自己回帰モデルでタンパク質単量体・リガンド複合体両対応の汎用MDサロゲート。キーフレーム生成+アンカー条件付き補間の二段階設計でATLAS・MISATOの双方をベンチマーク検証。
① 背景と課題

MDGenやDeepJump等の軌道生成モデルは連続軌道を生成できるが、タンパク質単量体か、あるいはリガンド複合体かという「どちらか一方」の制約があった。時間方向の因果依存性を明示的に保持しないため長時間生成で誤差が蓄積しやすく、汎用MDサロゲートとして使える手法が存在しなかった。

既存モデルはタンパク質単量体かリガンド複合体かの一方のみに特化
非自己回帰・因果依存性なし設計では長時間生成での誤差蓄積が顕著

→ SSMによる明示的状態保持 + Pairformerで単量体・複合体を統一アーキテクチャで処理

② 手法の概要: SSM+Pairformerコア
ATMOSアーキテクチャ x_t (構造) h_{t-1} (隠れ状態) SSM遷移: h_t = SSM(h_{t-1}, x_t) Pairformer (長距離依存性) 拡散デコーダ → x̂_{t+1} 二段階設計 G: キーフレーム生成 (大Δt: u·Δt) I: 補間器 始点-終点アンカー 条件付き充填
② 手法の概要: 訓練データと統一表現

訓練データ:mdCATH(タンパク質単量体、5398ドメイン)とMISATO(タンパク質-リガンド複合体)を混合使用。AlphaFold2のペア表現行列(ペアワイズ特徴)を活用し、単量体と複合体の双方に対応する統一表現を学習。

訓練データ混合:
mdCATH (単量体 5398ドメイン×500ns)
MISATO (タンパク質-リガンド複合体)
→ 統一アーキテクチャで両系統を処理
③ 本研究で示したこと(要点)
  • ATLASデータセット(タンパク質単量体)でRMSF・ペアワイズ距離・CA%・コンタクトマップを含む複数指標でSOTA相当
  • MISATOデータセット(タンパク質-リガンド複合体)でリガンド結合幾何MAE・立体衝突・RMSFでBioMDと同等以上
  • 単量体と複合体の両方を統一モデルで処理できる初めての汎用MDサロゲート
  • 二段階サンプリング(キーフレームG + 補間器I)で任意の時間解像度に対応
④ 主な結果 (a) ATLAS 単量体評価スコア
ATLAS評価 (タンパク質単量体) RMSF相関 0.61 0.74✓ CA%↑ 62% 79%✓ ペア距離 0.55 0.71✓ コンタクト 0.58 0.73✓ Best Baseline ATMOS 全指標でSOTA相当
④ 主な結果 (b) MISATO 複合体評価
MISATO評価 (タンパク質-リガンド複合体) リガンドMAE↓ 0.52 0.48✓ 立体衝突↓ 4.2% 3.8%✓ RMSF相関↑ 0.67 0.70✓ BioMD ATMOS BioMDと同等以上 — 統一モデルで実現 mdCATH+MISATO混合訓練で単量体・複合体両対応
④ 主な結果 (c) 二段階サンプリングの設計
キーフレーム生成器 G
大きな時間間隔 Δt_kf = u·Δt(u は整数倍率)で疎なフレーム列を生成
補間器 I
p(x_{t:t'} | x_t, x_{t'}, a) — 始点・終点アンカー条件付きでフレーム間充填

GとIは同一アーキテクチャを異なる時間ストライドで訓練。任意の時間解像度に対応。

④ 主な結果 (d) 先行MDサロゲートとの比較
モデル単量体複合体因果AR
AlphaFlow△ (独立)
MDGen
BioMD
STAR-MD
ATMOS○✓○✓○✓

単量体・複合体・因果ARの三者を同時満たす初のモデル

⑤ テイクホームメッセージ
汎用MDサロゲートの実現
単量体・リガンド複合体の両方を統一モデルで扱える初の自己回帰MDサロゲート。適用範囲の広さが最大の強み
二段階サンプリングの柔軟性
G+Iの組み合わせで任意の時間解像度に対応。長時間/短時間の解析ニーズを1モデルでカバー
lib/md への高い親和性
mdCATH+MISATOで訓練済みのため、HBondAnalyzer・RMSDAnalyzerとの連携でタンパク質-リガンド動力学解析が強化される
公開実装待ち
arXivプレプリント段階。BioGeometry/PKU公開後に即座に統合評価実施。STAR-MDとの比較評価も計画
残る課題と限界
Pairformer O(N²):大型タンパク質(残基100+)で計算・メモリコスト急増
mdCATH 500 ns:マイクロ秒以上のゆっくりとした集団運動は学習不足の可能性
補間器Iの精度:Δt_kfが長すぎると非物理的な内挿が発生するリスク
公開実装なし:arXivプレプリント段階で即座の活用は不可
本研究のインパクト
  • タンパク質単量体・リガンド複合体を統一的に扱える初の汎用MDサロゲート
  • lib/md へのサロゲート統合で、HBondAnalyzer/RMSDAnalyzerに高品質軌道を供給
  • STAR-MD(ATLAS特化)とATMOS(汎用)の補完的活用でMDパイプラインを強化