Evaluating Boltz-2 for Protein-Ligand Binding Prediction: A Large-Scale Computational Study
Wan, Coveny et al. | arXiv:2603.05532 | March 2026
🎯 Boltz-2を16,780件ホールドアウト + 21,702件最新PDBで独立大規模評価。開発者報告値との乖離を定量化し、実際のVS環境でのポーズ予測・親和性相関・計算コストを第三者検証する。
① 背景と課題

Boltz-2(MIT/Recursion)はタンパク質-リガンド結合予測のための深層学習モデルとして注目を集めたが、大規模な第三者独立評価は存在しなかった。開発者の自己評価のみでは実際の仮想スクリーニング環境での性能を正確に把握できず、実務適用判断が困難だった。

開発者自己評価のみ — 第三者による3万件規模の独立評価が存在しなかった
学習データ後の新規構造への汎化性能が未検証のまま実務適用が進んでいた

→ ホールドアウト16,780件 + 最新PDB21,702件で汎化性を厳密に二段階検証

② 手法の概要: 評価セット設計
セット1: ホールドアウト (16,780件)
配列・リガンド類似性を考慮してBoltz-2学習セットから分離。旧構造クラスでの再現性評価
セット2: 最新PDB (21,702件)
Boltz-2学習データカットオフ以降に登録された構造。真の汎化性能を評価
② 手法の概要: 評価指標と比較対象

評価指標:RMSD(結合ポーズ精度)・成功率(RMSD < 2Å)・Pearson相関係数(親和性予測)・計算時間・GPU使用量。比較対象:Glide・Vina・DiffDockも含む包括的比較。

主要指標:
① ポーズ成功率 (RMSD<2Å)
② 親和性 Pearson r
③ 計算コスト (Glide比)
③ 本研究で示したこと(要点)
  • ホールドアウトセットでは開発者報告値に近い性能(RMSD<2Å 成功率〜65%)
  • 最新PDBセット(学習カットオフ後)では成功率が〜45%まで低下 — 汎化性の限界を実証
  • 親和性相関Pearson r = 0.4〜0.5。スクリーニング利用は可能だがリード最適化には不足
  • 計算コストはGlideの2〜5倍。大規模スクリーニングへの実用適用に制限
④ 主な結果 (a) ポーズ成功率:ホールドアウト vs 最新PDB
RMSD < 2Å 成功率 (%) — セット別 ホールド 最新PDB 開発者報告 65% 45% 70% 新規構造で20pt低下 — 汎化性に限界
④ 主な結果 (b) 親和性予測 Pearson r
親和性予測 Pearson r — 手法比較 Vina DiffDock Boltz-2 H Boltz-2 P FEP(参考) 0.22 0.35 0.50 0.42 0.85 H=ホールドアウト / P=最新PDB
④ 主な結果 (c) 計算コスト比較
2〜5x
Boltz-2 vs Glide(GPU計算コスト比)
〜45%
最新PDBでのRMSD<2Å成功率(実用下限水準)

大規模スクリーニング(10万件以上)には計算コストが障壁。ポーズ精度が必要な精密評価ステージでの利用を推奨。

④ 主な結果 (d) 評価スキーム比較
手法成功率Pearson rコスト
Vina32%0.22
Glide55%0.38
DiffDock48%0.35
Boltz-2 (Hold)65%0.50
Boltz-2 (PDB)45%⚠0.42

新規構造では従来DiffDock並。コスト対効果を慎重に評価すること

⑤ テイクホームメッセージ
汎化性の限界が明確化
ホールドアウト65% → 最新PDB45%の低下。学習データに近い構造クラスでは有効だが新規系統には要注意
スクリーニング利用は可能
Pearson r≈0.45はヒット率向上に使えるラインだが、リード最適化にはFEP等の高精度手法が依然必要
UniDockRunnerとの比較指針
Boltz-2はコスト高のため大規模初期スクリーニングはVina/UniDock併用、精密評価にBoltz-2という使い分けを推奨
独立評価の重要性
開発者報告値と第三者評価に乖離あり。新ツール導入時は本論文と同様の内部ベンチマークが必要
実装公開情報
Boltz-2 OSS
https://github.com/jwohlwend/boltz
評価コード・データ
論文補足で公開予定(arXiv段階)

lib/docking に Boltz-2 ラッパーを追加し、UniDockRunner と並行評価できる統一インターフェース設計を検討

本研究のインパクト
  • Boltz-2の実際の適用範囲(新規構造45%)と限界を3万件規模で定量化
  • ProLIFCalculator/UniDockRunnerとの組み合わせ評価設計に直接活用できる独立ベンチマーク
  • 大規模VSパイプラインでのBoltz-2の位置づけを明確化:精密評価ステージ限定で利用