1背景と課題
タンパク質は単一構造ではなく active / inactive・apo / holo といった複数のコンフォメーション間を行き来する。ドラッグデザインや変異効果予測では「両方の状態」を捉える必要がある。
- AF3:拡散サンプリング (n=20) は多様だが 狙った代替構造を取り出せない。
- MSA クラスタリング:近似的な多様性制御止まり。物理的遷移は無視。
- 共通課題:313 ペア級のベンチマークと、信頼度メトリクスの両方が不足。
⇒ 統計力学に裏打ちされた多重コンフォメーション探索が要る。
2手法の概要
MSFold は ESM3 の 構造トークン列上で パラレルテンパリング (PT) を実行する。
- レプリカ数 n = 8〜16、各レプリカに「温度 T」を割当。
- 高温=ランダム変異を許容し広域探索/低温=高確率状態に収束。
- メトロポリス基準で隣接レプリカ間のトークン列を交換。
- SLL (Sequence Log-Likelihood) を新規信頼度メトリクスとして導入。
ESM3 token space
PT / Replica Exchange
SLL ranking
3本研究で示したこと
- 新規ベンチマーク 313 ペアを構築:GPCR・チャネル・キナーゼ等の 2 状態構造を網羅。
- 1 ランで 両コンフォメーションを当てる成功率で AF3 を +12 pt、MSA クラスタリングを +8 pt 上回る。
- 大規模変化(ドメインベンディング・ヘリックス再編)で特に優位。
- SLL による事後選別で さらに +約 5 pt。pLDDT より代替構造の品質判定に向く。
- 計算コストはレプリカ数 n に 線形に増加。n=16 では AF3 同等サンプル数より重くなる場合あり。
→ 「狙ってもう片方を当てる」が現実的な選択肢になった。
4主な結果
a両状態を 1 ランで当てる成功率
313 ペア中、両コンフォメーション (TM-score>0.8) を 1 ランで当てた割合。
bSLL と代替構造 RMSD の関係
SLL が高い (=モデル尤度の高い) 構造ほど代替構造との RMSD が小さい。pLDDT より相関良好。
cレプリカ数 n と成功率 / コスト
n=8 で成功率がほぼプラトー (47%)。n=16 (51%) はコスト 3.4× で性能向上は限定的。
dMSFold パイプライン
既存 ESM3 をフリーズして上に乗せる軽量な追加層。実装公開はまだだが ESM3 ベースで再現可能。
5テイクホームメッセージ
- ① PT × ESM3 トークン空間で多重コンフォメーション予測の
成功率を AF3 比 +12 pt、SLL 併用で +17 pt。
- ② SLL は pLDDT より代替構造の品質判定に向く。
事後選別だけで +約 5 pt の改善が得られる。
- ③ レプリカ数は n=8 が cost-effective。
n=16 はコスト 3.4× に対し性能寄与は小さい。
- ④ ケムインフォ応用:MSFold アンサンブルを
lib/docking のアンサンブルドッキング初期構造、
lib/md の sampling 初期構造、lib/fep の受容体多状態源として活用可能。
- ⑤ 限界:複合体・新規フォールドへの汎化、
n=16 でのコストは未解決。実装は ESM3 上に再構築が必要。