1背景と課題
AlphaFold 3 はタンパク質-リガンド/DNA/RNA複合体の高精度予測を可能にした一方、1入力の総時間の95%以上を MSA 構築フェーズが占有している。
- 従来:CPU上の JackHMMER(4プロセス並列)でチェーン毎に逐次検索
- 4データベース・E値1e-4 での走査がボトルネック
- AF2 では MMseqs2-GPU で高速化済だが、AF3 はパイプライン非互換で未対応
- 大規模スクリーニング (例: 受容体準備の自動化) には桁違いの高速化が必要
CPU bottleneck
95% MSA time
drop-in not trivial
2手法の概要
AF3のフォールディングモジュールと重みは保持し、MSA 構築のみ MMseqs2-GPU に置換する drop-in 設計。
- (1) 全チェーン一括バッチ化:チェーン毎逐次検索 → 単一GPUバッチクエリへ統合
- (2) DB N の post-processing と DB N+1 の GPU 検索を並列実行(pipeline overlap)
- (3) 2ステージ・アーキテクチャ:JAX フォールディングと MMseqs2-GPU で VRAM 競合を回避
- マルチGPU: Phase 1 で各GPUが独立にバッチMSA → 中間特徴をディスクへ → Phase 2 で並列フォールディング
batch=64-512
H200 / HBM3e
no inter-GPU comm
3本研究で示したこと
- 単一 H200 で 22.8x、4xH200 で 71.2x の高速化(vs. AF3 baseline)
- 4xH200 構成で 1入力あたり 8.1 秒、内訳: MSA 3.3s / fold 4.8s
- 並列効率 約 78%(GPU数に対しほぼ線形)
- Modal クラウド経由の サーバーレス運用で $0.035 / target
- MSA入力 (Depth, Neff) は Log-Ratio TOST で 等価マージン [0.80, 1.25] 内
- 構造 (TM-score, RMSD) と信頼度 (pLDDT, pTM) も AF3 と 統計的に同等
- AF3 のデフォルトパラメータ (4DB, E=1e-4) を厳密維持 → 精度後退なし
4主な結果
a. GPU 構成別スループット (vs. AF3 baseline = 1x)
単一 H200 で 22.8x 、4xH200 構成で 71.2x を達成。並列効率 ~78% でほぼ線形にスケール。
b. 1入力あたり実行時間の内訳 (4xH200)
AF3 で MSA が ~95% を占有 → AlphaFast は MSA 3.3s + Fold 4.8s = 8.1s に短縮。
c. 2-Phase アーキテクチャ (multi-GPU)
2フェーズ分離で VRAM 競合を回避。GPU 間通信不要なため 78% の並列効率を実現。
d. AF3 との等価性 (TOST 検定) と運用コスト
Depth/Neff/pLDDT/pTM の log-ratio CI が等価マージン内 → AF3 と同等。$0.035/target でサーバーレス利用可。
5テイクホームメッセージ
1) AF3 のボトルネック (MSA 95%) を MMseqs2-GPU drop-in 置換 で解消。重み・パラメータは無変更で精度後退なし。
2) 4xH200 で 71.2x / 8.1s/target / $0.035 ── ハイスループット複合体予測が現実的コストに。
3) 受容体構造の自動準備 → ドッキング (UniDockRunner)・MM-GBSA・FEP 評価への接続が高速化される。
4) 2フェーズ分離で VRAM 競合なし・GPU 間通信不要 → ほぼ線形スケール (~78%)。
5) 限界: 共有 FS の I/O / 折り畳みフェーズ自体の高速化なし / bioRxiv preprint 段階で査読未完。