SeedFold: Scaling Biomolecular Structure Prediction
Zhou & Gu et al. (ByteDance Seed) · arXiv:2412.10743 · Dec 2025
🎯 AlphaFold3系モデルの「スケーリングレシピ」を解明:幅拡張 + Linear三角アテンション + 26.5M蒸留データでAF3超え
① 背景と課題

AlphaFold3以降の構造予測モデル(Boltz-1, Chai-1, Protenix)はPairformerの層数(深さ)を増やす拡張が主流だったが、9回のリサイクルで有効深さは既に十分。真のボトルネックはpair representation次元(128)にある。

三角アテンションの計算量はO(n³d) — タンパク質長nが大きいとメモリが爆発的に増大
実験構造データが限られており、AlphaFold3 Transformerは少量データでは汎化しにくい

→ 幅スケーリング・線形アテンション・大規模蒸留の3軸でスケーリングを実現

② モデルスケーリング比較
深さ増加(48→96層)
↓ 効果小
構造モジュール深さ増加
↓ 効果最小
幅増加(128→512次元)✓ 最大効果
Base (128-width)
432M params, 0.15 iters/s
Large (512-width)
923M params, 0.06 iters/s

128→256で最大ゲイン、512まで単調改善(収穫逓減あり)

③ Linear Triangular Attention

ϕ(Q)ϕ(K)ᵀVの右積トリックでO(n³d)→O(n²d)に削減。2種類提案:

Additive
ϕ(Q)ϕ(K)ᵀ + ψ(B))V バイアスをamortize
Gated (採用)
ϕ(Q)ϕ(K)ᵀ ⊙ σ(B))V CUDA tiledカーネル

2000残基でvanillaの10%以下のメモリ使用量

④ 蒸留データセット (26.5M)

AlphaFold2(強いinductive bias)→ AlphaFold3(汎用Transformer)への移行でデータ要求が急増。対応策として3段構成の大規模蒸留:

  • PDB: 0.18M(実験データ, weight 0.50)
  • AFDB: 3.3M(短モノマー特化, pLDDT>0.8)
  • MGnify: 23M(メタゲノム, 長タンパク質, 中央値435残基)
MMSeqs clustering (id≥0.3) → colabfold_search MSA → OpenFold AF2推論 → 蒸留
⑤ FoldBench 評価結果
モデルモノマーlDDTProt-ProtAb-AgProt-Lig SRProt-RNA
AlphaFold30.8872.93%47.90%64.90%62.32%
Boltz-10.8768.25%33.54%56.90%50.91%
SeedFold0.888974.03%53.21%63.12%65.31%
SeedFold-Linear0.886174.14%46.91%66.48%61.80%

SeedFold: モノマー・Ab-Ag・Prot-RNA で1位。SeedFold-Linear: Prot-Prot・Prot-Lig で1位。両者の相補性が顕著。

⑥ 限界点・残る課題
  • Linear 512-width モデルは未実施(収束問題)
  • 訓練カットオフ 2021/9/30(最新PDB未学習)
  • FoldBenchのみ評価(CASP等の独立検証なし)
  • 26.5M蒸留パイプラインの再現コスト高
⑦ ケムインフォパイプラインへの応用
lib/docking

SeedFold-LinearをUniDockRunnerの前段構造予測に採用。未知ターゲットのhomology model dockingの精度向上(Prot-Lig SR +1.58pp vs AF3)

lib/md

Gated Linear Triangular AttentionをHBondAnalyzer / RMSDAnalyzerの内部表現に応用。長トラジェクトリでのメモリ削減。

  • 「深さより幅」の知見はNNP設計にも示唆:pair feature次元が精度ボトルネックの可能性
  • Project Page: https://seedfold.github.io/ / Protenix: https://github.com/bytedance/Protenix
⑧ X投稿用要約

ByteDance製SeedFold、AlphaFold3超え🧬 Pairformer「幅スケーリング」が鍵。Linear三角アテンションでメモリO(n²d)削減+2650万件蒸留データ。タンパク-リガンドSR 66.5%で最高性能 #構造予測 #DrugDiscovery