MSFold: Multi-State Protein Structure Prediction via Parallel Tempering in Discrete Token Space
DOI: 10.64898/2026.03.03.708411 ・ Published: 2026.03 (bioRxiv) Category: machine_learning

🎯 ゴール

ESM3 の離散構造トークン空間でレプリカ交換 MC を回し、AF3 / MSA クラスタリングでは届かない
「両コンフォメーションを 1 ランで当てる」確率を引き上げる。

1背景と課題

タンパク質は単一構造ではなく active / inactive・apo / holo といった複数のコンフォメーション間を行き来する。ドラッグデザインや変異効果予測では「両方の状態」を捉える必要がある。

  • AF3:拡散サンプリング (n=20) は多様だが 狙った代替構造を取り出せない。
  • MSA クラスタリング:近似的な多様性制御止まり。物理的遷移は無視。
  • 共通課題:313 ペア級のベンチマークと、信頼度メトリクスの両方が不足。

⇒ 統計力学に裏打ちされた多重コンフォメーション探索が要る。

2手法の概要

MSFold は ESM3 の 構造トークン列上で パラレルテンパリング (PT) を実行する。

  • レプリカ数 n = 8〜16、各レプリカに「温度 T」を割当。
  • 高温=ランダム変異を許容し広域探索/低温=高確率状態に収束。
  • メトロポリス基準で隣接レプリカ間のトークン列を交換。
  • SLL (Sequence Log-Likelihood) を新規信頼度メトリクスとして導入。

ESM3 token space PT / Replica Exchange SLL ranking

3本研究で示したこと

  • 新規ベンチマーク 313 ペアを構築:GPCR・チャネル・キナーゼ等の 2 状態構造を網羅。
  • 1 ランで 両コンフォメーションを当てる成功率で AF3 を +12 pt、MSA クラスタリングを +8 pt 上回る。
  • 大規模変化(ドメインベンディング・ヘリックス再編)で特に優位。
  • SLL による事後選別で さらに +約 5 pt。pLDDT より代替構造の品質判定に向く。
  • 計算コストはレプリカ数 n に 線形に増加。n=16 では AF3 同等サンプル数より重くなる場合あり。

→ 「狙ってもう片方を当てる」が現実的な選択肢になった。

4主な結果

a両状態を 1 ランで当てる成功率

0 20 40 60 80% 38% 42% 50% 55% AF3 (n=20) MSA cluster MSFold + SLL Δ +12 pt vs AF3
313 ペア中、両コンフォメーション (TM-score>0.8) を 1 ランで当てた割合。

bSLL と代替構造 RMSD の関係

0 2 4 6 8 10 Å -2.5 -2.0 -1.5 -1.0 -0.5 SLL (per-residue, ↑高品質) r ≈ -0.62 SLL カット (-1.6) RMSD vs ref. alt-conf.
SLL が高い (=モデル尤度の高い) 構造ほど代替構造との RMSD が小さい。pLDDT より相関良好。

cレプリカ数 n と成功率 / コスト

30 40 50 60% n=1 4 8 12 16 成功率 (左軸) 計算コスト (右軸) 推奨レンジ n=8
n=8 で成功率がほぼプラトー (47%)。n=16 (51%) はコスト 3.4× で性能向上は限定的。

dMSFold パイプライン

入力配列 FASTA ESM3 構造トークン化 Parallel Tempering n = 8 replicas T₁ (低温) ↔ T₂ T₂ ↔ T₃ T₃ ↔ T₄ … ↔ T₈ (高温) Metropolis 交換 → コンフォメーション集合 SLL ランキング 2 状態 構造出力 入力配列 → ESM3 トークン化 → PT 8 レプリカ → SLL 選別 → active / inactive 出力
既存 ESM3 をフリーズして上に乗せる軽量な追加層。実装公開はまだだが ESM3 ベースで再現可能。

5テイクホームメッセージ

  • ① PT × ESM3 トークン空間で多重コンフォメーション予測の
    成功率を AF3 比 +12 pt、SLL 併用で +17 pt
  • ② SLL は pLDDT より代替構造の品質判定に向く
    事後選別だけで +約 5 pt の改善が得られる。
  • ③ レプリカ数は n=8 が cost-effective
    n=16 はコスト 3.4× に対し性能寄与は小さい。
  • ④ ケムインフォ応用:MSFold アンサンブルを
    lib/docking のアンサンブルドッキング初期構造、
    lib/md の sampling 初期構造、lib/fep の受容体多状態源として活用可能。
  • ⑤ 限界:複合体・新規フォールドへの汎化、
    n=16 でのコストは未解決。実装は ESM3 上に再構築が必要。