AlphaFast: High-throughput AlphaFold 3 via GPU-accelerated MSA construction

DOI: 10.64898/2026.02.17.706409 Category: computational_chemistry Authors: Perry, Kim, Romero (Duke Univ.) Venue: bioRxiv preprint, 2026.02 Code: github.com/RomeroLab/alphafast (Apache 2.0)
Goal: AF3 のMSA構築をGPU化し、精度を維持したままハイスループットな複合体構造予測パイプラインを実現する

1背景と課題

AlphaFold 3 はタンパク質-リガンド/DNA/RNA複合体の高精度予測を可能にした一方、1入力の総時間の95%以上を MSA 構築フェーズが占有している。

  • 従来:CPU上の JackHMMER(4プロセス並列)でチェーン毎に逐次検索
  • 4データベース・E値1e-4 での走査がボトルネック
  • AF2 では MMseqs2-GPU で高速化済だが、AF3 はパイプライン非互換で未対応
  • 大規模スクリーニング (例: 受容体準備の自動化) には桁違いの高速化が必要
CPU bottleneck 95% MSA time drop-in not trivial

2手法の概要

AF3のフォールディングモジュールと重みは保持し、MSA 構築のみ MMseqs2-GPU に置換する drop-in 設計。

  • (1) 全チェーン一括バッチ化:チェーン毎逐次検索 → 単一GPUバッチクエリへ統合
  • (2) DB N の post-processing と DB N+1 の GPU 検索を並列実行(pipeline overlap)
  • (3) 2ステージ・アーキテクチャ:JAX フォールディングと MMseqs2-GPU で VRAM 競合を回避
  • マルチGPU: Phase 1 で各GPUが独立にバッチMSA → 中間特徴をディスクへ → Phase 2 で並列フォールディング
batch=64-512 H200 / HBM3e no inter-GPU comm

3本研究で示したこと

  • 単一 H200 で 22.8x4xH200 で 71.2x の高速化(vs. AF3 baseline)
  • 4xH200 構成で 1入力あたり 8.1 秒、内訳: MSA 3.3s / fold 4.8s
  • 並列効率 約 78%(GPU数に対しほぼ線形)
  • Modal クラウド経由の サーバーレス運用で $0.035 / target
  • MSA入力 (Depth, Neff) は Log-Ratio TOST で 等価マージン [0.80, 1.25]
  • 構造 (TM-score, RMSD) と信頼度 (pLDDT, pTM) も AF3 と 統計的に同等
  • AF3 のデフォルトパラメータ (4DB, E=1e-4) を厳密維持 → 精度後退なし

4主な結果

a. GPU 構成別スループット (vs. AF3 baseline = 1x)
0 20 40 60 80 Speedup (x) 1x AF3 CPU JackHMMER 22.8x 1xH200 ~36x 2xH200 71.2x 4xH200
単一 H200 で 22.8x 、4xH200 構成で 71.2x を達成。並列効率 ~78% でほぼ線形にスケール。
b. 1入力あたり実行時間の内訳 (4xH200)
処理時間 (秒) 0 100 200 300 400 AF3 baseline: MSA = 95% (~548s) ▶ ~577s AF3 8.1s AlphaFast AF3 MSA (CPU) MSA 3.3s Fold 4.8s ~71x speedup → 8.1秒 / target
AF3 で MSA が ~95% を占有 → AlphaFast は MSA 3.3s + Fold 4.8s = 8.1s に短縮。
c. 2-Phase アーキテクチャ (multi-GPU)
Phase 1: GPU MSA build GPU0 GPU1 GPU2 GPU3 batch 64-512 / DB1-4 並列 overlap 中間特徴 → disk no inter-GPU comm ~78% parallel eff. Phase 2: AF3 folding GPU0 GPU1 GPU2 G3 JAX folding (parallel) VRAM 競合なし (2-stage) 構造 (TM/RMSD/pLDDT) AF3 と統計的同等
2フェーズ分離で VRAM 競合を回避。GPU 間通信不要なため 78% の並列効率を実現。
d. AF3 との等価性 (TOST 検定) と運用コスト
Equivalence margin [0.80, 1.25] log-ratio = 1.0 0.80 1.25 Depth Neff pLDDT pTM all within [0.80, 1.25] → 統計的に 同等 サーバーレス運用 (Modal): $0.035 / target 512 ターゲット ≈ $18 / 約 70 分 (4xH200) — AF3 比 ~71x 高速 PDB 由来 32 / 512 ターゲット x 3 反復ベンチマークで検証
Depth/Neff/pLDDT/pTM の log-ratio CI が等価マージン内 → AF3 と同等。$0.035/target でサーバーレス利用可。

5テイクホームメッセージ

1) AF3 のボトルネック (MSA 95%) を MMseqs2-GPU drop-in 置換 で解消。重み・パラメータは無変更で精度後退なし。
2) 4xH200 で 71.2x / 8.1s/target / $0.035 ── ハイスループット複合体予測が現実的コストに。
3) 受容体構造の自動準備 → ドッキング (UniDockRunner)・MM-GBSA・FEP 評価への接続が高速化される。
4) 2フェーズ分離で VRAM 競合なし・GPU 間通信不要 → ほぼ線形スケール (~78%)。
5) 限界: 共有 FS の I/O / 折り畳みフェーズ自体の高速化なし / bioRxiv preprint 段階で査読未完。