STAR-MD: Scalable Spatio-Temporal SE(3) Diffusion for Long-Horizon Protein Dynamics

ByteDance Seed — Shoghi/Gu et al. | arXiv:2602.02128 | February 2026

🎯 SE(3)同変拡散モデルを因果自己回帰フレームワークに組み込み、関節S×Tアテンションで時空間依存性を統合的にモデル化。マイクロ秒スケールのタンパク質軌道生成でATLASベンチマーク全指標SOTA達成。

① 背景と課題

MDGen・ConfRover等の自己回帰型MD生成モデルは時空間依存性を分離処理するか、過去フレームを静的ベクトルに圧縮するかのどちらかで、長時間生成に必要な細かい時空間文脈を失う。この設計上の限界により100 ns以上の生成では誤差蓄積が顕著になり構造品質が著しく劣化する。

既存モデルは時空間依存性を分離処理 → 長時間生成で誤差蓄積・構造品質劣化

1 μsベンチマークでは先行ベースライン手法が構造品質を完全に失う

→ 関節S×Tアテンションによる非分離時空間依存性モデリング + KVキャッシュで解決

② 手法の概要: 関節S×Tアテンション

② 手法の概要: コンテキストノイズと訓練設計

SE(3)のRiemannian多様体上で拡散プロセスを定義（平行移動はGauss、回転はIGSO3分布）。訓練時に過去フレームへ小さなノイズを付加する「コンテキストノイズ」が長時間ロールアウトの構造品質維持に不可欠。

訓練データ: ATLASデータセット（タンパク質MD）
入力: タンパク質配列 (OpenFold) + 時間間隔 Δt
出力: 次フレームのバックボーン構造

③ 本研究で示したこと（要点）

④ 主な結果 (a) ATLAS評価指標比較

④ 主な結果 (b) 時間スケール別構造品質（CA%）

④ 主な結果 (c) アブレーション実験

関節S×Tアテンション＋コンテキストノイズの双方が必須

④ 主な結果 (d) コンフォメーション多様性カバレッジ

⑤ テイクホームメッセージ

マイクロ秒スケールを安定生成
1 μsでベースラインが崩壊する中も85%の構造品質を維持。長時間タンパク質ダイナミクスへのアクセスが実現

関節S×Tアテンションが鍵
時空間を非分離でモデル化することで従来の分離型アテンションを大幅に超える。アブレーションで明確に実証

lib/md 統合の最有力候補
タンパク質構造ダイナミクス解析パイプラインへの組み込みで、RMSD/HBond解析に高品質な長時間軌道を提供

コンテキストノイズの設計思想
過去フレームにノイズを付加することで誤差蓄積を抑制。自己回帰MDモデル設計の重要な実践的知見

先行手法との比較

モデル	時空間	1μs対応	ATLAS SOTA
MDGen	分離	✗	✗
ConfRover	静的条件	✗	✗
DeepJump	δ条件	△	✗
STAR-MD	関節S×T	✓	✓

本研究のインパクト