SeedFold: Scaling Biomolecular Structure Prediction

Zhou & Gu et al. (ByteDance Seed) · arXiv:2412.10743 · Dec 2025

🎯 AlphaFold3系モデルの「スケーリングレシピ」を解明：幅拡張 + Linear三角アテンション + 26.5M蒸留データでAF3超え

① 背景と課題

AlphaFold3以降の構造予測モデル（Boltz-1, Chai-1, Protenix）はPairformerの層数（深さ）を増やす拡張が主流だったが、9回のリサイクルで有効深さは既に十分。真のボトルネックはpair representation次元（128）にある。

三角アテンションの計算量はO(n³d) — タンパク質長nが大きいとメモリが爆発的に増大

実験構造データが限られており、AlphaFold3 Transformerは少量データでは汎化しにくい

→ 幅スケーリング・線形アテンション・大規模蒸留の3軸でスケーリングを実現

② モデルスケーリング比較

深さ増加（48→96層）
↓ 効果小
構造モジュール深さ増加
↓ 効果最小
幅増加（128→512次元）✓ 最大効果

Base (128-width)

432M params, 0.15 iters/s

Large (512-width)

923M params, 0.06 iters/s

128→256で最大ゲイン、512まで単調改善（収穫逓減あり）

③ Linear Triangular Attention

ϕ(Q)ϕ(K)ᵀVの右積トリックでO(n³d)→O(n²d)に削減。2種類提案：

Additive

ϕ(Q)ϕ(K)ᵀ + ψ(B)）V バイアスをamortize

Gated (採用)

ϕ(Q)ϕ(K)ᵀ ⊙ σ(B)）V CUDA tiledカーネル

2000残基でvanillaの10%以下のメモリ使用量

④ 蒸留データセット (26.5M)

AlphaFold2（強いinductive bias）→ AlphaFold3（汎用Transformer）への移行でデータ要求が急増。対応策として3段構成の大規模蒸留:

合計 26.5M（MGnifyが大半・最も多様）

MMSeqs clustering (id≥0.3) → colabfold_search MSA → OpenFold AF2推論 → 蒸留

⑤ FoldBench 評価結果

モデル	モノマーlDDT	Prot-Prot	Ab-Ag	Prot-Lig SR	Prot-RNA
AlphaFold3	0.88	72.93%	47.90%	64.90%	62.32%
Boltz-1	0.87	68.25%	33.54%	56.90%	50.91%
SeedFold	0.8889	74.03%	53.21%	63.12%	65.31%
SeedFold-Linear	0.8861	74.14%	46.91%	66.48%	61.80%

SeedFold: モノマー(0.8889)・Ab-Ag(53.21%)・Prot-RNA(65.31%) で1位。SeedFold-Linear: Prot-Prot(74.14%)・Prot-Lig(66.48%) で1位。両者の相補性が顕著。

⑥ 限界点・残る課題

⑦ ケムインフォパイプラインへの応用

lib/docking

SeedFold-LinearをUniDockRunnerの前段構造予測に採用。未知ターゲットのhomology model dockingの精度向上（Prot-Lig SR +1.58pp vs AF3）

lib/md

Gated Linear Triangular AttentionをHBondAnalyzer / RMSDAnalyzerの内部表現に応用。長トラジェクトリでのメモリ削減。

「深さより幅」の知見はNNP設計にも示唆：pair feature次元が精度ボトルネックの可能性
Project Page: https://seedfold.github.io/ / Protenix: https://github.com/bytedance/Protenix

⑧ X投稿用要約

ByteDance製SeedFold、AlphaFold3超え🧬 Pairformer「幅スケーリング」が鍵。Linear三角アテンションでメモリO(n²d)削減＋2650万件蒸留データ。タンパク-リガンドSR 66.5%で最高性能 #構造予測 #DrugDiscovery